自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

分享数据科学家的自我修养

分享数据科学家的自我修养

  • 博客(4)
  • 收藏
  • 关注

原创 Python爬虫实战之爬取链家广州房价_02把小爬虫变大

问题引入上一小节简单介绍了单个页面的爬取,涉及到请求和解析两个模块,其中请求使用urllib,解析使用BeautifulSoup,爬取了链家的单个页面,处理了我们想要的页面元素,输出到控制台。我们通过浏览器上网打开页面,来源有两种,一种是已知的地址,如Google,另一种是通过前面爬下来的页面中获取入口,如a标签中的href属性值。通过爬虫自动化获取浏览器可以获取的数据,要模拟浏览器的行为,获取更多

2017-02-24 09:38:58 1119

原创 Python爬虫实战之爬取链家广州房价_01简单的单页爬虫

思路介绍爬取链家广州所有小区信息、在售楼盘及所有历史成交记录,对于超过100个页面的信息,采用曲线爬取的方式,先爬每个小区,然后爬每个小区的在售楼盘及成交记录,后期将进行相应更新,进一步研究Cookie的使用、Proxy(代理)的设置、模拟登录、验证码识别等问题。环境基于Python 2.7。请求这里我使用的package是urllib和urllib2,这里列一下爬取过程中需要注意的一些问题。

2017-02-22 15:56:35 2557

原创 Git学习笔记02_仓库操作

版本回退 git status,查看仓库工作区当前状态。 git diff,查看修改的内容。 HEAD指向的版本是当前版本,上一个版本是HEAD^,上100个版本是HEAD~100,Git的版本历史穿梭命令git reset --hard commit_id。 穿梭前,用git log可以查看提交历史,以便确定要回退到哪个版本。简化版git log --pretty=oneline。 要重返未来,用

2017-02-12 13:04:49 291

原创 Git学习笔记01_创建版本库

创建版本库 初始化Git仓库,git init。 添加文件到Git仓库,git add <file>,可反复多次使用,添加多个文件;git commit,把文件提交到仓库。 # 创建空目录$ mkdir learngit $ cd learngit $ pwd /e/learngit # 把目录变成Git可以管理的仓库$ git init Initialized empty Git reposito

2017-02-11 22:44:52 248

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除