简单记录下python爬虫的学习过程,小目标是可以写出完善的脚本爬取微博评论和App Store中的用户评价
第一步了解爬虫脚本的大致框架组成
根据搜索到的资料,先练手,尝试获取python菜鸟教程上的目录,存储在文件中输出
遇到的问题总结:
1.获取到的数据中有一些空格数量的影响,导致输出到文件中的展示比较乱
数据量较少,所以采取了遍历整个列表,使用python中的strip()方法对每个字符串都进行前后空格的去除
后续编写过程中,关注下数据量较大时,是否还有该问题影响,或者是否有其他简单的处理方案,本次就先这样吧
xpath进行的元素获取可以参考这篇文章:https://zhuanlan.zhihu.com/p/29436838
import requests
from lxml import html
import os
url="https://www.runoob.com/python3/python-mysql-connector.html"
page=requests.Session().get(url)
tree=html.fromstring(page.text)
result=tree.xpath('//div[@class="design"]//a/@title')
print(result)
pwd=os.getcwd()
file=open('test.txt','w')
for i in result:
j=i.strip()
file.write(j)
file.write('\n')
file.close()