爬虫学习
wangyanao520
python
展开
-
爬取51job招聘网
import urllib.requestfrom bs4 import BeautifulSoupimport timeimport pymongoimport pymysql#https://search.51job.com/list/170200,000000,0000,00,9,99,python,2,2.htmldef handle_request(keyword,page,...原创 2018-11-06 19:07:00 · 563 阅读 · 0 评论 -
用python爬取美女图片
import urllib.requestimport osfor i in range(2000, 2400):if not os.path.exists(‘tupian/’ + str(i)):os.makedirs(‘tupian/’ + str(i))for j in range(60):try:url = ‘http://img1.mm131.me/pic/’ + str(...原创 2018-11-06 19:01:05 · 21639 阅读 · 2 评论 -
使用模拟器翻页下载ajax页面
一般发送request请求,spider扔给引擎进行处理,引擎给调度器进行处理请求,处理后给引擎,这时候引擎给下载器过程中会有download_middlewares,这时候可以通过中间件对请求处理中间件代码:from scrapy.http import HtmlResponsefrom selenium.webdriver.chrome.options import Optionsim...原创 2018-11-29 21:12:24 · 275 阅读 · 0 评论 -
爬虫中进行数据清洗
一般而言,存入数据库中的数据都要进行清洗,但是在解析页面中对数据清洗比较麻烦而且杂乱,对于这种情况scrapy中的scrapy.loader可以很好的解决。以下是一段数据清洗的代码首先是解析页面:import scrapyfrom scrapy import Requestfrom scrpy_item.items import CountryItem,CountryItemLoader...原创 2018-11-28 16:53:52 · 15314 阅读 · 1 评论 -
Scrapy框架
Scrapy是一个为了爬取网站数据、提取结构化数据而编写的爬虫应用框架。Scrapy内部实现了包括并发请求、免登录、URL去重等很多复杂操作,可以再settings中通过配置完成很多反爬虫,若需要额外功能,Scrapy还提供了多种中间件。Scrapy框架主要有五个模块以及中间件:1.Scrapy Engine(Scrapy引擎)Scrapy Engine是用来控制整个爬虫系统的数据处理流程...原创 2018-12-06 22:03:16 · 518 阅读 · 0 评论 -
MongoDB的使用
MongoDB的基本使用连接数据库数据库条件操作符连接数据库mongoClient = pymongo.MongoClient(host='123456',port=27017)没有test数据库时它会自动创建db = mongoClient.test如果没有权限的话加入下面一句db.authenticate("username","password")没有表的话会自动创建db.表...原创 2019-09-16 18:28:29 · 112 阅读 · 0 评论