han_yanlong-CSDN博客

转载 SQL语句

SQL语句参考，包含Access、MySQL 以及 SQL Server 基础创建数据库CREATE DATABASE database-name 删除数据库drop database dbname备份sql server创建备份数据的 device USE master EXEC sp_addumpdevice 'disk', 'testBack', 'c:\mssql7backup\My

2017-08-15 19:18:34 249

原创 Scrapy框架爬取详细步骤

Scrapy框架(本文只做学习使用,请勿他用)1.需求工具 pycharm 小说网的域名 (www.qisuu.com)第一步—–创建文件创建成功后显示如图:第二步——将创建在桌面上的scrapy文件用pycharm打开:这是创建成功后在pycharm中的显示pycharm左下角打开 Terminal打开后如图我第一次键入了一条命令提示爬虫名字不能和项目名称一样,更改后再运行..成功建立爬虫

2017-08-10 20:47:03 5430

原创多线程实际应用

# -*- coding:utf-8 -*- import sys reload(sys) sys.setdefaultencoding("utf-8") import requests from Queue import Queue from lxml import etree import threading from time import sleep import codecs file

2017-08-09 15:51:55 338

原创多线程基础

# -*- coding: utf-8 -*- import requests import threading import sys from time import sleep reload(sys) sys.setdefaultencoding("utf-8") # 单线程: 顺序执行, 如果第一个人没有执行完, 第二个不能开始 # 体验: 执行代码需要等待,有可能卡死 # ctrl+d

2017-08-09 10:18:54 271

原创 xpath爬取首页信息,并获取详情页标题与时间

# -*- coding: utf-8 -*- # url为伯乐在线文章首页 import sys import requests from lxml import etree import random import codecs reload(sys) sys.setdefaultencoding("utf-8") def download_page(url): user_age

2017-08-08 16:48:00 5024

原创 xpath 具体应用

# -*- coding: utf-8 -*- import sys import requests from lxml import etree import codecs reload(sys) sys.setdefaultencoding("utf-8") # 51job最新文章首页源码 3.html 存本地使加快请求速度 # open后为路径建议用相对路径第一个点表示当前文件上一级路

2017-08-08 15:32:21 381

原创 xpath基本用法

讲解xpath基本语法---数据来源伯乐在线网页代码 1. 匹配某个/些元素 //img 匹配网页内的所有或一个img元素 2. 根据id匹配某个元素 //div[@id='logo'] 3. 根据class匹配某个元素 //div[@class='leaderboard-true'] 4. 通用写法 //div[@属性名='属性内容'] 5. 查找

2017-08-08 11:52:52 376

原创使用BS4爬取 51job 一页的招聘信息

强调:读取文件,建议不使用open,而是使用codecs.open

2017-08-08 11:07:30 531

原创使用BS4解析网页内容并获取指定内容

# 使用BS4解析网页并获取相关数据 # BeautifulSoup4 只用来解析网页

2017-08-08 10:08:25 5515

han_yanlong的博客