MAC环境下网络爬虫抓取静态资源
- MAC 配置Python
- python下载pip代码管理工具
- 下载Beautiful包
- 抓取静态资源
最近公司分配一个新项目“日本房产网站”,房产网站中涉及地区信息,愁坏了人,百度、谷歌没有日本的省市县sql资源,思来想去最后决定爬取XXX网站的省市信息。经过一下午的努力(查百度)成功。
1.MAC配置Python
mac系统自带Python,所以此区域没有进行相关配置,没办法提供经验,打开终端输入python回车即可进入。
2.pip代码管理工具
pip类似composer
1)切换终端目录至Python文件夹(/Library/Python/2.7)
2)
python setup.py install
3)pip使用
安装包 pip install pagename
查看包 pip list
查看需要更新包 pip list --outdated
更新包 pip install --upgrade packname
卸载包 pip uninstall pagename
3.下载Beautiful模块
使用pip管理工具 直接终端输入
pip install beautiful
4.抓取静态资源
urllib2包引入html 代码,BeautifulSoup查。
BeautifulSoup手册
最终结果更新数据库,做到这里就算完成了,总体来说还是很简单的。一下午时间只认真研究两小时吧,昨天是端午节,今天在这里我提醒大家一句,假期余额不足,明天最后一天!