【实例】python抓取网页，使用Xpath/lxml;BeautifulSoup/Bs4;urllib.request;re；最后导入excel

最新推荐文章于 2024-08-23 15:02:00 发布

神创

最新推荐文章于 2024-08-23 15:02:00 发布

阅读量473

点赞数

分类专栏：爬虫 python Xpath 正则表达式

本文链接：https://blog.csdn.net/qq_19741181/article/details/79834757

版权

python 同时被 3 个专栏收录

84 篇文章 3 订阅

订阅专栏

爬虫

16 篇文章 0 订阅

订阅专栏

正则表达式

8 篇文章 0 订阅

订阅专栏

前面主要是解析html，提炼出所需的部分

>>> import re,urllib.request
>>> from bs4 import BeautifulSoup
>>> from lxml import etree
>>> url = "http://zsb.szu.edu.cn/zanouse_1"
>>> page = urllib.request.urlopen(url)
>>> soup = BeautifulSoup(page,'lxml')
>>> f = open('E:/e8.txt','a+')
>>> print(soup.prettify(),file = f)
>>> f.close()
>>> f = open('E:/e8.txt','r')
>>> html = f.read()
>>> selector = etree.HTML(html)
>>> content = selector.xpath('/html/body/a/descendant-or-self::*')
>>> for i in content:
...   print(i.text)
...

   [2018-3-22]

>>> text = """   [2018-3-22]
..."""#直接复制了前面的运行结果，省略中间文段

--------------------------------------

下面要实现的是格式化，用的主要是正则

>>> list = text.split()
>>> print(type(list))
>>> text = " ".join(list)
>>> print(text)

>>> tt = open('E:/323232.txt','a+')
>>> tt.write(text)
500
>>> print(tt)
<_io.TextIOWrapper name='E:/323232.txt' mode='a+' encoding='cp936'>
>>> tt.close()
>>> tt = open('E:/323232.txt','r')
>>> lines = tt.readlines()

>>> for a,b in zip(d,t):
...   print(a,"\t",b)
[2018-3-22]    深圳大学

>>>

还有有点问题，还不如直接用excel的数据来源于网页，抓取的更好些，不过先记录一下，说不定之后能改观

神创

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录