pathon----爬虫学习1

本文介绍了Python爬虫学习的第一步,包括安装Python3和PyCharm,探讨了免费与收费版的区别,并提供了破解方法。强调了安装时配置系统PATH的重要性。接着,提到了需要安装的几个关键爬虫库如xlwt、lxml和requests,并演示了如何使用pip3安装。此外,讲解了爬虫的基本思想和网页结构,通过Chrome开发者工具学习如何获取网页元素的XPath,以解析HTML文件。
摘要由CSDN通过智能技术生成

下载pathon3,下载pycharm(IDE工具)。pycharm有免费版和收费版,收费版需要找个验证码破解一下。

http://blog.csdn.net/u014044812/article/details/78727496

安装python的时候,勾选下面的增加到系统的path配置,就可以自动配置path,然后install now就可以了。


安装好软件后,还需要安装一些插件。根据自己的需要自己安装。

比如:xlwt(处理excel),lxml(解析xml) ,requests(解析网络请求)。

打开cmd,输入

pip3 install lxml(要安装的插件名称)


安装后,就可以在pathon程序的开头引入这个包


python去爬虫内容,我理解就是用python去解析网页,找到网页中的共性,提取共性元素。所以需要对网页知识有些了解。比如网页的格式,div,css等等。

我们安装chrome,用chrome打开网页,点击开发者工具


鼠标指向网页元素,点击右键检查,会在右侧的开发者工具中,显示和该元素对应的代码

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值