下载pathon3,下载pycharm(IDE工具)。pycharm有免费版和收费版,收费版需要找个验证码破解一下。
http://blog.csdn.net/u014044812/article/details/78727496
安装python的时候,勾选下面的增加到系统的path配置,就可以自动配置path,然后install now就可以了。
安装好软件后,还需要安装一些插件。根据自己的需要自己安装。
比如:xlwt(处理excel),lxml(解析xml) ,requests(解析网络请求)。
打开cmd,输入
pip3 install lxml(要安装的插件名称)
安装后,就可以在pathon程序的开头引入这个包
python去爬虫内容,我理解就是用python去解析网页,找到网页中的共性,提取共性元素。所以需要对网页知识有些了解。比如网页的格式,div,css等等。
我们安装chrome,用chrome打开网页,点击开发者工具
鼠标指向网页元素,点击右键检查,会在右侧的开发者工具中,显示和该元素对应的代码