python爬取文字编程_Python爬取网站内容并进行文字预处理(英文)

注:输出部分用省略号代替...爬取网站''' import urllib.requestresponse = urllib.request.urlopen('http://php.net/') html = response.read()print(html) '''输出:''' b'\n\n\n\n \n \n\n PHP: Hypertext Preprocessor\n\n \n \n '...
摘要由CSDN通过智能技术生成

注:输出部分用省略号代替...

爬取网站

''' import urllib.request

response = urllib.request.urlopen('http://php.net/') html = response.read()

print(html) '''

输出:

''' b'\n\n

\n\n \n \n\n PHP: Hypertext Preprocessor\n\n \n \n

'''

转换为干净文本

''' import urllib.request from bs4 import BeautifulSoup

response = urllib.request.urlopen('http://php.net/') html = response.read() soup=BeautifulSoup(html,"html5lib") # 这需要安装html5lib模块 text = soup.get_text(strip=True)

-- text -- 获取了一个干净的文本

print(text) ''' 输出为: ''' PHP: Hypertext PreprocessorDownloadsDocumentationGet InvolvedHelpGetting StartedIntroductionA simple tutorialLanguage ReferenceBasic ...... '''

转换为tokens ''' import urllib.request from bs4

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值