python爬虫
文章平均质量分 59
Gavin_CHEN929
这个作者很懒,什么都没留下…
展开
-
python爬虫抓取晋江网一篇小说
这几天学了python的requests库和BeautifulSoup,闲来爬取晋江网一篇小说。1.过程分析:(1)获取全部免费章节的标题和链接(前23章),后面的章节是vip收费,没有账号充值无法爬取 (2)进入每章的链接爬取小说正文 其实爬取得思路比较简单,稍微复杂的是小说正文的正则匹配2.代码实现:# coding: utf-8import requestsfrom bs4 import原创 2016-12-24 14:53:41 · 12123 阅读 · 6 评论 -
豆瓣模拟登陆
1、模拟headers 2、登陆豆瓣,查看并构造表单 两种实现方式,一种普通,一种使用sessionimport requestsfrom bs4 import BeautifulSoupfrom urllib.request import urlretrievelogin_url = 'https://accounts.douban.com/login' # 登陆网址headers =原创 2017-02-19 11:17:32 · 858 阅读 · 0 评论 -
scrapy爬取豆瓣TOP250电影
1.思路分析1.1网页关系分析 上图红框内是第一页网址 第一页网址:https://movie.douban.com/top250?start=0 第二页网址:https://movie.douban.com/top250?start=25 … 第十页网址:https://movie.douban.com/top250?start=225 可以看出存在规律,实际就是每页展示25部电影。1原创 2017-02-22 22:21:45 · 1843 阅读 · 1 评论 -
Scrapy框架爬取京东商品
这是上的第二节爬虫课程的课后作业:抓取京东某类商品的信息,这里我选择了手机品类。使用scrapy爬虫框架,需要编写和设置的文件主要有phone.py , pipelines.py , items.py , settings.py , 其中主要编写的是前两个文件,最后一个文件主要设置破解反爬方法。phone.py编写程序如下:import scrapyfrom sc原创 2016-12-13 21:57:05 · 3838 阅读 · 2 评论 -
Scrapy框架爬取昵图网图片
这是第一篇博文,小白学习Python快一个月。从上周开始学习CSDN的韦玮老师的《Python大型网络爬虫实战课》。第一节课讲授大型图片网站的图片爬取,老师以千图网为例,讲解基于Scrapy爬取一般图片网站的流程和方法。Scrapy 图片爬虫构建思路为:1. 分析网站2. 选择爬取方式和策略3. 创建爬虫项目--》定义items4. 编写爬虫文件5. 调试pipelines原创 2016-11-20 17:01:27 · 3380 阅读 · 3 评论