利用python进行自然语言处理学习笔记——chap1

最新推荐文章于 2024-09-27 22:47:07 发布

foursight

最新推荐文章于 2024-09-27 22:47:07 发布

阅读量250

点赞数

分类专栏： NLP 文章标签：自然语言处理 python

本文链接：https://blog.csdn.net/fouronesight/article/details/71151915

版权

NLP 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

第一章.语言处理与python

nltk语料库下载
python基础知识（list/string等)
计算语言——简单的统计(计数与频率)
语言理解技术

import nltk
test1 = ['a', 'b', 'c', 'd']
frep = nltk.FreqDist(test1)  #计数返回FreqDist Class including keys
frep.plot(cumulative = TRUE) # 画出累计图

一般大部分的出现频率过高的词对于把握文本的主题和风格等没有意义
出现一次的低频词（hapaxs)对于文本特征选取也没有更多信息量

添加新的词汇选取方式

长高频词

Vac = set(test1)
#长高频词
long_words = [w for w in Vac if len(w)>10 and test1[w]>10]

搭配
collection和bigrams方法的使用

NLTK简单统计函数描述

分析非结构化文本的方法日益发展

1.词义消歧
2.anaphora resolution
3.自动生成语言
4.机器翻译问题

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

foursight

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

利用python进行自然语言处理学习笔记——chap2

fouronesight的博客

05-03

215

第二章.获得文本语料与词汇资源

利用python进行自然语言处理学习笔记——chap3加工原料文本

fouronesight的博客

05-05

224

加工原料文本

参与评论您还未登录，请先登录后发表或查看评论

利用Python进行数据分析的学习笔记——chap7

hlinging的博客

03-01

1380

数据规整化：清理、转换、合并、重塑合并数据集 pandas.merge可根据一个或多个键将不同DataFrame中的行连接起来。 pandas.concat可以沿着一条轴将多个对象堆叠到一起。实例方法combine_first可以将重复数据编接在一起，用一个对象中的值填充另一个对象中的缺失值。数据库风格的DataFrame合并 import numpy as np import pandas as pd from pandas import DataFrame,Series df1 = DataFr

利用Python进行数据分析的学习笔记——chap12

hlinging的博客

03-06

616

NumPy高级应用 ndarray对象的内部机理 import numpy as np import pandas as pd np.ones((10,5)).shape (10, 5) np.ones((3,4,5),dtype=np.float64).strides (160, 40, 8) NumPy数据类型体系 ints = np.ones(10,dtype=np.uint16) floats = np.ones(10,dtype=np.float32) np.issubdtype(ints

利用Python进行数据分析的学习笔记——chap10

hlinging的博客

03-06

410

时间序列日期和时间数据类型及工具 from datetime import datetime now = datetime.now() now datetime.datetime(2022, 3, 4, 8, 23, 31, 842698) now.year,now.month,now.day (2022, 3, 4) #时间差 delta = datetime(2022,3,3)-datetime(1998,10,20,8,10) delta datetime.timedelta(days=8

利用Python进行数据分析的学习笔记——chap6

hlinging的博客

02-27

341

读写文本格式的数据 import pandas as pd import numpy as np from pandas import Series,DataFrame !type "E:\python_study_files\python\pydata-book-2nd-edition\examples\ex1.csv" a,b,c,d,message 1,2,3,4,hello 5,6,7,8,world 9,10,11,12,foo df = pd.read_csv("E:\python_st

利用Python进行数据分析的学习笔记——chap5

hlinging的博客

01-13

392

pandas的数据结构介绍 from pandas import Series,DataFrame import pandas as pd import numpy as np Series （索引在左边，值在右边。可看作是一个定长的有序字典） obj = Series([4,7,-5,3]) obj 0 4 1 7 2 -5 3 3 dtype: int64 #通过Series的values和index属性获取其数组表示形式和索引对象。 obj.values obj.index

利用Python进行数据分析的学习笔记——chap8

hlinging的博客

03-06

3159

绘图和可视化 matplotlib的示例库和文档是成为绘图高手的最佳学习资源。 import numpy as np import pandas as pd from pandas import DataFrame,Series #画图所需 %pylab inline %matplotlib inline import matplotlib.pyplot as plt Populating the interactive namespace from numpy and matplotlib plot(

利用Python进行数据分析的学习笔记——chap11

hlinging的博客

03-06

552

金融和经济数据应用数据规整化方面的话题时间序列以及截面对齐 import numpy as np import pandas as pd from pandas import DataFrame, Series stock_px = pd.read_csv("E:\python_study_files\python\pydata-book-2nd-edition\examples\stock_px.csv",parse_dates=True,index_col=0) prices = stock_px

Python全套课程笔记-chap4-函数

01-02

### Python全套课程笔记-chap4-函数 #### 1. 函数入门与定义函数 ##### 1.1 理解函数 - **定义**: 函数是一段具有特定功能的代码块，通过定义函数，我们可以为这段代码起一个名称，以便在后续程序中通过这个名称...

史上最全Python学习笔记（基于《Python学习手册（第4版）》）——Part6 类和OOP(中)

weixin_42435831的博客

08-30

1190

文章目录Chap28 类代码编写细节class语句一般形式例子方法例子调用超类构造方法其他方法调用的可能性继承属性树的构造继承方法的专有化类接口技术抽象超类Python2.6和Python3.0中的抽象超类命名空间：完整的内容简单变量名：如果赋值就不是全局变量属性名称：对象命名空间Python命名空间的“禅”：赋值将变量名分类命名空间字典命名空间链接回顾文档字符串类与模块的关系Chap29 运算符...

自然语言处理（二）基于CNN的新闻文本分类

dayday学习的博客

03-03

7574

Task1 数据集探索数据集数据集：中、英文数据集各一份中文数据集：THUCNews THUCNews数据子集：https://pan.baidu.com/s/1hugrfRu 密码：qfud 英文数据集：IMDB数据集 Sentiment Analysis IMDB数据集下载和探索 ...

机器学习（5）——数据探索与可视化（1）

WHJ226的博客

06-21

1781

目录1 缺失值处理1.1 简单的缺失值处理方法1.1.1 发现数据中的缺失值1.1.2 剔除带有缺失值的行或列1.1.3 对缺失值进行插补 1.2 复杂的缺失值填充方法1.2.1 IterativeImputer多变量缺失值填充1.2.2 K-近邻缺失值填充1.2.3 随机森林缺失值填充2 数据描述与异常值发现2.1 数据描述统计2.1.1 数据集中的位置2.1.2 离散程度2.1.3 偏度和峰度2.1.4 单个数据变量的分布情况2.2 发现异常值的基本方法在数据探索过程中，面对一组已经读取的数据，首要的问

自然语言处理（jieba库分词）

最新发布

m0_61903191的博客

09-27

310

一个好的NLP系统一定要有完备的词典，用于判断算法分出的词是否是具有实际意义的词。自定义一个词典，比如dic = ["项目", "研究", "目的", "商品", "服务", "和服", "和尚", "尚未", "生命", "起源", "当下", "雨天", "地面", "积水", "下雨天", "欢迎", "老师", "生前", "就餐", "迎新", "师生", "前来"]。实现相关的分词方法：完全切分、正向最长匹配、逆向最长匹配、双向最长匹配算法，并输入一些句子验证分词结果的正确性。

NLP 主流应用方向

xymspace

09-22

454

【代码】NLP 主流应用方向。

SGLang——结构化语言模型程序的高效执行

知来者逆的博客

09-23

1045

实验表明，与各种大型语言和多模态模型上的最先进推理系统相比，SGLang 实现了高达 6.4 倍的吞吐量，可处理代理控制、逻辑推理、小样本学习基准、JSON 解码、检索增强生成管道和多轮聊天等任务。实验表明，与各种大型语言和多模态模型上的最先进推理系统相比，SGLang 实现了高达 6.4 倍的吞吐量，可处理代理控制、逻辑推理、小样本学习基准、JSON 解码、检索增强生成管道和多轮聊天等任务。较大模型的加速趋势与较小模型的加速趋势相似，表明 SGLang 的优化可以很好地推广到较大的模型。

深度学习模型之BERT的24个小模型源码与预训练紧凑模型的重要性

aidashuju的博客

09-23

1353

【NLP】daydayup 词向量训练模型word2vec

m0_73658021的博客

09-24

479

Gensim的输入是原始的、无结构的数字文本（纯文本），内置的算法包括Word2Vec，FastText，潜在语义分析（Latent Semantic Analysis，LSA），潜在狄利克雷分布（Latent Dirichlet Allocation，LDA）等，通过计算训练语料中的统计共现模式自动发现文档的语义结构。word2vec是一种高效训练词向量的模型，基本出发点是上下文相似的两个词。连续词袋模型，根据上下文来预测目标单词的模型。使用上下文各词的词向量的均值作为拼接起来的词向量。

r语言chap-1 introduction to r 中文版注释

09-24

《R语言chap-1 introduction to R 中文版注释》是一本介绍R语言的书籍，旨在帮助读者了解R语言的基础知识和概念。该书第一章主要介绍了R语言的概述和安装方法。R语言是一种用于数据分析和统计建模的开源编程语言，...