NLTK 处理HTML

最新推荐文章于 2020-07-15 12:42:41 发布

Miya_coding

最新推荐文章于 2020-07-15 12:42:41 发布

阅读量599

点赞数

分类专栏： python自然语言处理文章标签： python nltk

本文链接：https://blog.csdn.net/Miya_coding/article/details/79790360

版权

python自然语言处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近在学习《python自然语言处理》，在尝试书上的处理HTML部分的示例时候，报了一些错误，通过百度解决了这些问题。记录一下可以正确运行的代码。

from __future__ import division
import nltk,re,pprint
from bs4 import BeautifulSoup
from urllib import urlopen
url = "https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_14915193279875254281%22%7D&n_type=0&p_from=1"
html = urlopen(url).read()
print html#.decode('utf-8').encode('gbk')
raw = BeautifulSoup(html,"lxml").get_text()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Miya_coding

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLTK 处理HTML

最近在学习《python自然语言处理》，在尝试书上的处理HTML部分的示例时候，报了一些错误，通过百度解决了这些问题。记录一下可以正确运行的代码。from __future__ import divisionimport nltk,re,pprintfrom bs4 import BeautifulSoupfrom urllib import urlopenurl = "https://m...
复制链接

扫一扫