自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

cuishao

不会打篮球的程序员不是一个好厨子

  • 博客(6)
  • 收藏
  • 关注

原创 使用Scrapy_redis进行分布式爬虫

1.创建项目:scrapy startproject mySpider2.创建爬虫:scrapy genspider –t crawl tencent3 hr.tencent.com3.安装需要的软件包4.tencent3.py代码# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtr...

2018-11-17 17:10:04 158

原创 python笔记

1.异常:又语法异常,逻辑异常(又分为可预知异常if…else 处理,不可预知异常try…except处理)2.异步IO/同步IO:(1)同步:所谓同步,就是在发出一个功能调用时,在没有得到结果之前,该调用就不返回。也就是必须一件一件事做,等前一件做完了才能做下一件事。例如:普通B/S模式(同步):提交请求->等待服务器处理-&

2018-11-16 22:17:09 1231

原创 爬虫实战2--使用selenium爬斗鱼直播

一,selenium入门Selenium 库里有个叫 WebDriver 的 API。WebDriver 有点儿像可以加载网站的浏览器,但是它也可以像 BeautifulSoup 或者其他 Selector 对象一样用来查找页面元素,与页面上的元素进行交互 (发送文本、点击等),以及执行其他动作来运行网络爬虫。1.页面操作Selenium 的 WebDriver提供了各种方法来寻找元素,假设...

2018-11-12 17:05:51 487

原创 爬虫实战1--使用selenium访问豆瓣网验证码处理

一,去云打码注册登录管理自己的服务;调用里面的官网函数获取我们想要的验证码,具体操作看文档。def discern(filepath,codetype): # 用户名 username = '1130402601' # 密码 password = '2716532cxw' # 软件ID,开发者分成必要参数。登录开发者后台【我的软件】获得! appi...

2018-11-09 22:29:32 347

原创 python爬虫CSV文件的使用

一,语法1.读:reader = csv.reader(csvFile) # 返回的是迭代类型2.写:writer = csv.writer(csvFile2)二,实例(1)import csvimport jsondef f1(): with open("./files/mycsv.csv","w",encoding="utf-8&

2018-11-08 17:10:42 2709

原创 正则表达式把数据转换成json格式(爬虫小工具)

代码如下:import reinfos = '''Host: fanyi.baidu.comConnection: keep-aliveContent-Length: 116Accept: */*Origin: https://fanyi.baidu.comX-Requested-With: XMLHttpRequestUser-Agent: Mozilla/5.0 (Win...

2018-11-01 14:07:00 1680

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除