自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

一起学习Python网络爬虫

10月 09月 08月 07月 06月 05月

原创 Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页

注释：上一篇《Python爬虫实战（3）：安居客房产经纪人信息采集》，访问的网页是静态网页，有朋友模仿那个实战来采集动态加载豆瓣小组的网页，结果不成功。本篇是针对动态网页的数据采集编程实战。

2016-07-15 10:35:31 2956 4

原创 Python爬虫实战（3）：安居客房产经纪人信息采集

本实战是上图中的“独立python爬虫”的一个实例，以采集安居客房产经纪人信息为例，记录整个采集流程，包括python和依赖库的安装，即便是python初学者，也可以跟着文章内容成功地完成运行。

2016-07-11 11:01:18 4099 1

原创 Python信息采集器使用轻量级关系型数据库SQLite

Python自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库，可以搭配Python建网站，或者为python网络爬虫存储数据。SQLite还在其它领域有广泛的应用，比如HTML5和移动端。

2016-07-07 10:13:59 1304

原创 Python网页信息采集：使用PhantomJS采集淘宝天猫商品内容

最近一直在看Scrapy 爬虫框架，并尝试使用Scrapy框架写一个可以实现网页信息采集的简单的小程序。尝试过程中遇到了很多小问题，希望大家多多指教。

2016-07-06 11:48:22 6346

原创让Scrapy的Spider更通用

《Scrapy的架构初探》一文所讲的Spider是整个架构中最定制化的一个部件，Spider负责把网页内容提取出来，而不同数据采集目标的内容结构不一样，几乎需要为每一类网页都做定制。我们有个设想：是否能做一个比较通用的Spider，把定制部分再进一步隔离出去？

2016-07-01 10:32:11 3086

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

fullerhua CSDN认证博客专家 CSDN认证企业博客

码龄8年

IP 属地：广东省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

33: 原创

24万+: 周排名

153万+: 总排名

8万+: 访问

: 等级

1215: 积分

31: 粉丝

11: 获赞

11: 评论

26: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页
垠汪酱Louise: gooseeker.py 下载放了一个文件夹以后，仍然显示 No module named 'gooseeker' 是怎么回事呀？
快速制作规则及获取规则提取器API
qq_26515913: 你好，现在这个还可以用吗
Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页
xiaoran668: 灰常给力的大数据平台——神箭手（shenjian.io），提供海量爬虫、API及数据源数据，支持爬取结果自动发布，代理IP切换，文件云托管，webhooks等服务~~
Python爬虫实战（3）：安居客房产经纪人信息采集
xiaoran668: 好一篇AD帖~~ 神箭手大数据平台（shenjian.io），支持在线开发爬虫，API及数据清洗等应用，支持验证码识别，代理IP切换，文件云托管，数据自动发布到网站/数据库等功能服务，更有海量免费爬虫等你使用哦~~
Python爬虫实战（2）：爬取京东商品列表
xiaoran668: 爬京东的列表页还用PhantomJS，有点大才小用了吧！分析下网页源码，用神箭手 shenjian.io XPath就能直接抽取出列表页数据啦！

最新文章

提示

确定要删除当前文章？

取消删除