最近开始学习使用python ,初步想着抓抓网页
用了python 2.7 和python 3.4
1----安装
安装包在我的个人百度网盘中有,需要的朋友也可以联系我,也可以到官网下载
2、使用idle
安装好后我有试着使用python 自带的编辑器idle
在开始--》搜索程序和文件栏中输入idle -->点击idle 。
3、参考源代码
https://github.com/shineyr/Spider/blob/master/01_douban.py
上面的代码是别人写的。下面附上该神的博客文链接:
http://blog.csdn.net/fly_yr/article/details/51525435
============================================================================================
其他:
建议用pip安装其他包。
首先升级pip
下面是我在运行该源码时遇到的问题时解决方法和部分解决问题链接
安装 bs4
http://www.crummy.com/software/BeautifulSoup/
http://www.crummy.com/software/BeautifulSoup/bs4/download/4.3/
解压后,在cmd 下执行python setup.py install
pip install --upgrade html5lib
twisted
http://www.jianshu.com/p/a294a4b2bcde
pycharm
http://blog.csdn.net/php_fly/article/details/19364913
http://blog.csdn.net/hk2291976/article/details/51141868
https://sourceforge.net/projects/pywin32/files/pywin32/Build%20220/
scray
http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html
https://www.oschina.net/code/snippet_210762_44600
运行: scrapy crawl xxx -o respBody -t json (其中xxx所在的文件名必须为xxxSpider.py )
https://a6205206z.github.io/scrapytaobao.html 登录淘宝
http https
http://www.111cn.net/phper/python/103529.htm
进程
能够登录web服务器。获取静态数据