- 博客(6)
- 收藏
- 关注
原创 使用Scrapy_redis进行分布式爬虫
1.创建项目:scrapy startproject mySpider2.创建爬虫:scrapy genspider –t crawl tencent3 hr.tencent.com3.安装需要的软件包4.tencent3.py代码# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtr...
2018-11-17 17:10:04 158
原创 python笔记
1.异常:又语法异常,逻辑异常(又分为可预知异常if…else 处理,不可预知异常try…except处理)2.异步IO/同步IO:(1)同步:所谓同步,就是在发出一个功能调用时,在没有得到结果之前,该调用就不返回。也就是必须一件一件事做,等前一件做完了才能做下一件事。例如:普通B/S模式(同步):提交请求->等待服务器处理-&
2018-11-16 22:17:09 1231
原创 爬虫实战2--使用selenium爬斗鱼直播
一,selenium入门Selenium 库里有个叫 WebDriver 的 API。WebDriver 有点儿像可以加载网站的浏览器,但是它也可以像 BeautifulSoup 或者其他 Selector 对象一样用来查找页面元素,与页面上的元素进行交互 (发送文本、点击等),以及执行其他动作来运行网络爬虫。1.页面操作Selenium 的 WebDriver提供了各种方法来寻找元素,假设...
2018-11-12 17:05:51 487
原创 爬虫实战1--使用selenium访问豆瓣网验证码处理
一,去云打码注册登录管理自己的服务;调用里面的官网函数获取我们想要的验证码,具体操作看文档。def discern(filepath,codetype): # 用户名 username = '1130402601' # 密码 password = '2716532cxw' # 软件ID,开发者分成必要参数。登录开发者后台【我的软件】获得! appi...
2018-11-09 22:29:32 347
原创 python爬虫CSV文件的使用
一,语法1.读:reader = csv.reader(csvFile) # 返回的是迭代类型2.写:writer = csv.writer(csvFile2)二,实例(1)import csvimport jsondef f1(): with open("./files/mycsv.csv","w",encoding="utf-8&
2018-11-08 17:10:42 2709
原创 正则表达式把数据转换成json格式(爬虫小工具)
代码如下:import reinfos = '''Host: fanyi.baidu.comConnection: keep-aliveContent-Length: 116Accept: */*Origin: https://fanyi.baidu.comX-Requested-With: XMLHttpRequestUser-Agent: Mozilla/5.0 (Win...
2018-11-01 14:07:00 1680
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人