利用NLTK处理HTML

最新推荐文章于 2022-04-08 11:43:19 发布

Shingle_

最新推荐文章于 2022-04-08 11:43:19 发布

阅读量2.2k

点赞数 2

分类专栏：自然语言处理文章标签：自然语言处理 NLTK html

本文链接：https://blog.csdn.net/Shingle_/article/details/56283116

版权

自然语言处理专栏收录该内容

27 篇文章 0 订阅

订阅专栏

处理流程

下载网页，如果需要可以剥除HTML，整理成所需要的内容

import nltk
from urllib import urlopen
url = "http://www.baidu.com"

html = urlopen(url).read()
raw = nltk.clean_html(html)
raw = raw[750:434343]

标记文本，选出其中感兴趣的标记，创建一个NLTK文本

tokens = nltk.wordpunct_tokenize(raw)
tokens = tokens[20:2424]
text = nltk.Text(tokens)

标准化处理文字，创建词汇表

words = [w.lower() for w in text]
vocab = sorted(set(words))

处理流程：我们打开一个URL代码读取里面HTML格式的内容，去除标记，并选择字符的切片，然后分词，是否转换为nltk.Text对象是可选的。我们也可以将所有词汇小写并提取词汇表。

在一段NLP代码中可能做的第一件事情就是讲一个字符串分词放入一个字符串链表中。

Beautiful Soup 软件包

更复杂的有关处理HTML的内容

http://www.crummy.com/software/BeautifulSoup/

参考《Natural Language Processing with Python》

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Shingle_

关注关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python3.x如何从互联网获取想要的文章，及转化为nltk可以处理的文本

一起学习机器学习第一章

12-13

557

from urllib.request import urlopen from bs4 import BeautifulSoup from nltk import word_tokenize import nltk #2种方式解析HTML中的文本 url = "http://news.bbc.co.uk/2/hi/health/2284783.stm" html = urlopen(u

python 文本处理保留中英文和标点符号_【NLP】Python NLTK处理原始文本

weixin_39622891的博客

12-03

1263

作者：白宁超2016年11月8日22:45:44摘要：NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项...

参与评论您还未登录，请先登录后发表或查看评论

NLTK 处理HTML

Miya_coding的博客

04-02

627

最近在学习《python自然语言处理》，在尝试书上的处理HTML部分的示例时候，报了一些错误，通过百度解决了这些问题。记录一下可以正确运行的代码。from __future__ import division import nltk,re,pprint from bs4 import BeautifulSoup from urllib import urlopen url = "https://m...

处理html内容为nltk

西西里的仔仔的专栏

08-18

534

1.下载网页：html = urlopen(url).read() 2.剥离html：raw = nltk.clean_html(html) 3.整理内容：raw = raw[750:3425] 4.标记文本：tokens = nltk.wordpunct_tokenize(raw) 5.取出其中感兴趣的：tokens = tokens[20:500] 6.创建NLTK文本：te

NLTK 访问并处理 HTML 文本

cyberickk blog

03-17

141

pip install requests pip install BeautifulSoup4 方法一 import nltk, requests from urllib.request import urlopen from bs4 import BeautifulSoup url = 'https://www.archives.gov/founding-docs/constitution-t...

python下对爬取到的史书用nltk统计词频，词云生成，snownlp做文章情感分析及对应柱状图

qq_52458004的博客

05-27

1194

前言因为老师突然布置下的任务，学的有点匆忙，比较适合第一次做情感分析，结巴分词，统计词频，生成词云，画统计图的同学，应该会让你们少走点弯路。完整代码放最后面，前面是解决各种可能出现的问题。一、首先是库的引用代码如下（示例）： import json import jieba import nltk import os from wordcloud import WordCloud,ImageColorGenerator from PIL import Image import numpy as

NLTK语言处理与文本

wasabidragon的博客

04-02

2276

语言处理文本获得和处理文本语料

Python自然语言处理 NLTK 库用法入门教程【经典】

热门推荐

python函数基础教程

04-16

1万+

@本文来源于公众号：csdn2299，喜欢可以关注公众号程序员学府本文实例讲述了Python自然语言处理 NLTK 库用法。分享给大家供大家参考，具体如下：在这篇文章中，我们将基于 Python 讨论自然语言处理（NLP）。本教程将会使用 Python NLTK 库。NLTK 是一个当下流行的，用于自然语言处理的 Python 库。那么 NLP 到底是什么？学习 NLP 能带来什么好处？ ...

自然语言处理NLTK（二）：文本处理

haleycat的博客

04-08

643

NLP流程对于自然语言的处理，对问题的预处理可以用下图来表示，不管文本从哪里来本地或者网络，清理html，分词，取得vocab。清理html 在原书中提供了一个nltk.clean_html()函数，但是这个函数已经过时了，现在我们会使用BeautifulSoup库来代替。例如，课后习题第20题：编写代码来访问喜爱的网页，并从中提取一些文字。例如，访问一个天气网，提取你所在的城市的温度。现在我们以上海市为例，获取上海当天的温度情况。代码如下： from bs4 import BeautifulSou

0415学习笔记（nltk基本处理）

weixin_43621813的博客

04-17

363

首先，不要把python代码文件命名为nltk，不然会报错ModuleNotFoundError: No module named ‘nltk.book’; ‘nltk’ is not a package 使用nltk.download()提示——远程主机强迫关闭了一个现有连接在网上找个nltk_data的数据包下载，解压（重要），放在一个根目录下（如C：,D:），放在给的目录里是会报错的比如R...

Python利用nltk的clean_html提取htm文件的内容

Carl

11-04

3237

import os import codecs # import nltk import re from pdf_extract import extract_pattern def clean_html(html): """ Copied from NLTK package. Remove HTML markup from the given string.

Python 使用nltk和BeautifulSoup进行数据清理 (去除html tag和转换html entities)

计算机视觉

01-16

6224

from nltk import clean_html from BeautifulSoup import BeautifulStoneSoup content = '''Is anyone else having troubles with Bluetooth on a Moto X? \u00a0It connects fine to my car when I make a call, b

【NLTK基础教程】01-1 三种获取网页中有效文本的方法

山不过来，我就过去

01-21

1055

本篇是《NLTK基础教程》第一章的第三节，向NLTK迈进中的一个例子，获取网页中的文本的三种方法。 1 抓取网页这里主要是用了urllib库中的函数来抓取指定网页，代码如下： import urllib.request response=urllib.request.urlopen('http://python.org') html=response.read() print(

python html转换为普通文本_Python转换HTML到Text纯文本的方法

weixin_36335482的博客

03-01

1688

这篇文章主要介绍了Python转换HTML到Text纯文本的方法,分析了常用的两种方法,非常具有实用价值,需要的朋友可以参考下本文实例讲述了Python转换HTML到Text纯文本的方法。分享给大家供大家参考。具体分析如下：今天项目需要将HTML转换为纯文本，去网上搜了一下，发现Python果然是神通广大，无所不能，方法是五花八门。拿今天亲自试的两个方法举例，以方便后人：方法一：1. 安装nltk...

让Spark文本组件支持Html标签

wxm3373477的博客

12-26

188

默认下Spark 文本组件是不支持Html标签的，但我们可以使用TextConverter类中的importToFlow()方法解决这个问题。看下面代码： package controls { import flashx.textLayout.conversion.TextConverter; import flashx.textLayout.elements.TextFl...

spark解析html文件,让Spark文本组件支持Html标签

weixin_32823993的博客

06-19

321

默认下Spark 文本组件是不支持Html标签的，但我们可以使用TextConverter类中的importToFlow()方法解决这个问题。看下面代码：package controls{import flashx.textLayout.conversion.TextConverter;import flashx.textLayout.elements.TextFlow;import spark....

[学习记录]NLTK常见操作一（去网页标记，统计词频，去停用词）

diejingpo2316的博客

07-09

443

NLTK是python环境中的一个非常流行的NLP库，这篇记录主要记录NLTK的一些常见操作 1.去除网页html标记　　我们常常通过爬虫获取网页信息，然后需要去除网页的html标签。为此我们可以这么做： 2.统计词频　　这里使用的tokens就是上面图中的tokens 3.去除停用词　　停用词就是类似the,a,of这种语义无价值的词，取出后我们还可以把统计图...

python推文解析器——实现推文分词、去停词、去网址、缩写词还原、词形还原、提取hashtag、usermentioned内容等

qq_40438165的博客

04-27

3883

输入：推文文本text 输出：由 url, words, hashtag, @ 组成的字典 import re class tweetParser(object): """ function：获取推特文本的网址，单词，hashtag，user_mentioned """ def __init__(self): self.stopWords = ...