爬虫爬取某一网页的文字(利用xpath)

将爬取的文字保存到文件夹并输出:

import requests
from lxml import etree

#网址:定州市2021年度公立医院部分财务信息公示
url="http://www.dzs.gov.cn/col/1598582296916/2022/02/16/1644977083060.html"
res=requests.get(url,headers={'User-Agent':'Mozilla/4.0(compatible;MSIE7.0;Wind dowsNT5.1;Trident/4.0:InfoPath.2;.NET4.0C;.NET4.0E;.NETCLR2.0.50727;360SE'})
res.encoding='utf-8'
#爬取到的文字都储存在texts里
webpage=res.text
#打开文件
fo=open("pc.txt","w",encoding='utf-8')
#开始爬取
page=etree.HTML(webpage)

texts=page.xpath('//*[@id="conN"]//p//span/text()')
#将爬到的text写入文件,同时在终端输出方便及时查看
for text in texts:
    print(text)
    fo.write(text)
#关闭文件
fo.close()

将爬取的文字只输出(不保存到文件夹):

import requests
from lxml import etree

#网址:定州市2021年度公立医院部分财务信息公示
url="http://www.dzs.gov.cn/col/1598582296916/2022/02/16/1644977083060.html"
res=requests.get(url,headers={'User-Agent':'Mozilla/4.0(compatible;MSIE7.0;Wind dowsNT5.1;Trident/4.0:InfoPath.2;.NET4.0C;.NET4.0E;.NETCLR2.0.50727;360SE'})
res.encoding='utf-8'

#爬取到的文字都储存在text里
webpage=res.text

#开始爬取
page=etree.HTML(webpage)
texts=page.xpath('//*[@id="conN"]//p//span/text()')
#将爬到的text在终端输出
for text in texts:
    print(text)

 

ps:(如何得到xpath路径)

1.在目标网页中右键,选“检查”

2.找到目标文字对应的元素

3.在对应元素中右键,选择copy—copy xpath

4.得到//*[@id="conN"]/p[5]/span[1],然后再在后面加上/text()表示元素下的文字的xpath(而非元素的xpath):

//*[@id="conN"]/p[5]/span[1]/text()

5.表示所有p[]和所有span[]下的文字的xpath

//*[@id="conN"]//p//span/text()

(把/p[5]变成//p,把/span[1]变成//span)

Python爬虫是一种通过编写Python程序来自动化获取互联网上的数据的技术。爬虫可以用于从网上抓取各种数据,包括文字、图片、视频等。而网课数据爬取是指使用爬虫技术从网上抓取各种网课相关的数据,比如课程名称、课程价格、课程评分等。 爬取网课数据的过程通常分为以下几个步骤: 1. 确定要爬取的目标网站和数据,比如某个网上教育平台的课程页面。 2. 使用Python爬虫库,比如Requests库或Scrapy框架,发送HTTP请求获取网页内容。 3. 使用解析库,比如BeautifulSoup库或XPath,解析网页内容,提取所需的数据。 4. 对数据进行清洗和处理,比如去除HTML标签、缺失值处理等。 5. 将清洗过的数据保存到本地文件或数据库中,以备后续分析和可视化使用。 在获取到网课数据后,可以使用可视化工具,比如Matplotlib库或Plotly库,来进行数据的可视化展示。通过可视化,可以更直观地理解和分析数据,并将数据以图表的形式展示出来,比如柱状图、折线图、饼图等。这些图表可以帮助人们更好地理解网课的分布、趋势和关联性,为决策提供参考。 总而言之,Python爬虫技术可以用于网课数据的爬取,而数据的可视化则可以通过使用Python的可视化库来实现。这种方式可以帮助我们更好地利用网上的网课资源,并通过数据分析和可视化来获得更多的洞见和价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值