爬虫入门（初阶）

最新推荐文章于 2022-03-28 17:02:19 发布

是你的甜甜呀

最新推荐文章于 2022-03-28 17:02:19 发布

阅读量162

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/agate_zhang/article/details/116591374

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

简单记录下python爬虫的学习过程，小目标是可以写出完善的脚本爬取微博评论和App Store中的用户评价

第一步了解爬虫脚本的大致框架组成

根据搜索到的资料，先练手，尝试获取python菜鸟教程上的目录，存储在文件中输出

遇到的问题总结：

1.获取到的数据中有一些空格数量的影响，导致输出到文件中的展示比较乱

数据量较少，所以采取了遍历整个列表，使用python中的strip()方法对每个字符串都进行前后空格的去除

后续编写过程中，关注下数据量较大时，是否还有该问题影响，或者是否有其他简单的处理方案，本次就先这样吧

xpath进行的元素获取可以参考这篇文章：https://zhuanlan.zhihu.com/p/29436838

import requests
from lxml import html
import os
url="https://www.runoob.com/python3/python-mysql-connector.html"
page=requests.Session().get(url)
tree=html.fromstring(page.text)
result=tree.xpath('//div[@class="design"]//a/@title')
print(result)

pwd=os.getcwd()
file=open('test.txt','w')
for i in result:
    j=i.strip()
    file.write(j)
    file.write('\n')
file.close()

是你的甜甜呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫入门（初阶）

简单记录下python爬虫的学习过程，小目标是可以写出完善的脚本爬取微博评论和App Store中的用户评价第一步了解爬虫脚本的大致框架组成根据搜索到的资料，先练手，尝试获取python菜鸟教程上的目录，存储在文件中输出遇到的问题总结：1.获取到的数据中有一些空格数量的影响，导致输出到文件中的展示比较乱数据量较少，所以采取了遍历整个列表，使用python中的strip()方法对每个字符串都进行前后空格的去除后续编写过程中，关注下数据量较大时，是否还有该问题影响，或者是否有其他简.
复制链接

扫一扫