【实例】python抓取网页,使用Xpath/lxml;BeautifulSoup/Bs4;urllib.request;re;最后导入excel

16 篇文章 0 订阅
8 篇文章 0 订阅

前面主要是解析html,提炼出所需的部分

>>> import re,urllib.request
>>> from bs4 import BeautifulSoup
>>> from lxml import etree
>>> url = "http://zsb.szu.edu.cn/zanouse_1"
>>> page = urllib.request.urlopen(url)
>>> soup = BeautifulSoup(page,'lxml')
>>> f = open('E:/e8.txt','a+')
>>> print(soup.prettify(),file = f)
>>> f.close()
>>> f = open('E:/e8.txt','r')
>>> html = f.read()
>>> selector = etree.HTML(html)
>>> content = selector.xpath('/html/body/a/descendant-or-self::*')
>>> for i in content:
...   print(i.text)
...

   [2018-3-22]
>>> text = """   [2018-3-22]
..."""#直接复制了前面的运行结果,省略中间文段

--------------------------------------

下面要实现的是格式化,用的主要是正则

>>> list = text.split()
>>> print(type(list))
>>> text = " ".join(list)
>>> print(text)

>>> tt = open('E:/323232.txt','a+')
>>> tt.write(text)
500
>>> print(tt)
<_io.TextIOWrapper name='E:/323232.txt' mode='a+' encoding='cp936'>
>>> tt.close()
>>> tt = open('E:/323232.txt','r')
>>> lines = tt.readlines()

>>> for a,b in zip(d,t):
...   print(a,"\t",b)
[2018-3-22]    深圳大学

>>>

还有有点问题,还不如直接用excel的数据来源于网页,抓取的更好些,不过先记录一下,说不定之后能改观

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值