自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Catastrophe

11月 10月 09月 07月 06月 05月 04月 03月 02月 01月

原创【爬虫】使用Selenium爬取腾讯漫画

目标：以自动下载指定漫画的最新一话为例，或下载某部指定漫画。思路：因为在漫画页内漫画图片地址是动态加载出来的，因此选用Selenium进行浏览器的模拟操作，处罚js行为进行地址的加载。再获取到图片地址后进行下载。每部漫画的地址都是有一个固定的id，可以直接请求指定漫画的详情页。ROOT_URL = "http://ac.qq.com"TargetUrls = [ ROOT_U...

2018-03-14 11:59:01 8514 5

原创【爬虫】Python使用requests爬取代理IP并验证可用性

在编写爬虫的过程中为了避免IP地址被Ban掉，可以通过抓取IP代理后，通过代理IP进行对网页的访问。网络上有很多提供免费代理IP的网站，我们可以选择西刺进行代理IP的爬取并存储到csv文件中，并通过多进程来验证爬取IP的可用性。http://www.xicidaili.com/就提供了很多免费的代理IP。通过requests和lxml进行网页的爬取和解析。在爬取之前我们首先设置请求头，...

2018-03-08 15:12:30 9026

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

yugu2day CSDN认证博客专家 CSDN认证企业博客

码龄9年

IP 属地：上海市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

89: 原创

2万+: 周排名

1万+: 总排名

39万+: 访问

: 等级

4010: 积分

97: 粉丝

132: 获赞

91: 评论

266: 收藏

私信

关注

热门文章

分类专栏

etcd 4篇
golang 1篇
睡前读物Scrapy 8篇
python 32篇
爬虫 20篇
android开发 33篇
java 2篇
Git 2篇
android测试 4篇
数据库 5篇
Linux 2篇

最新评论

etcd启动和测试
CSDN-Ada助手: 云原生入门技能树或许可以帮到你：https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native
CLUSTERDOWN The cluster is down 的解决办法
某个果冻: 节点正常，但是代码接入失败，是怎么回事啊，是不是要做客户端集群？
Python日志分级别输出到不同文件
Lewis: 你好，这篇很有用，但是我有点疑问。我的日志只能输出到stdout文件，从supervisor的页面却看不到日志。而stderr可以输出到文件，也可以在页面看到。请问这是怎么回事呢？
CLUSTERDOWN The cluster is down 的解决办法
a515370: Unrecognized option or bad number of args for: '--cluster'
scrapy请求头首字母大写的解决方法
zwj_figo54: 终于明白了为啥我用Scrapy.Request提交Headerl里的"access_token"明明是正确的，却总是得不到正确的结果！终于解决了，非常感谢！

最新文章

提示

确定要删除当前文章？

取消删除