自然语言处理
Doris_H_n_q
这个作者很懒,什么都没留下…
展开
-
【转】数据处理——One-Hot Encoding
机器学习 数据预处理之独热编码(One-Hot Encoding)来源:https://blog.csdn.net/dulingtingzi/article/details/51374487https://www.cnblogs.com/haobang008/p/5911466.htmlhttps://blog.csdn.net/pipisorry/article/details/...转载 2018-09-17 22:37:06 · 291 阅读 · 0 评论 -
【转】语言模型的基本概念
语言模型的基本概念转载于:https://www.cnblogs.com/Dream-Fish/p/3963028.html 本文介绍一下有关语言模型的基本概念,但是在介绍语言模型之前,先简单回顾一下自然语言处理这个大问题吧。现在自然语言处理的研究绝对是一个非常火热的方向,主要是被当前的互联网发展所带动起来的。在互联网上充斥着大量的信息,主要是文字方面的信息,对这些信息的处理离不开自...转载 2018-09-17 17:29:05 · 417 阅读 · 0 评论 -
【转】梯度下降法与反向传播
一、梯度下降法1.什么是梯度下降法顺着梯度下滑,找到最陡的方向,迈一小步,然后再找当前位,置最陡的下山方向,再迈一小步… 通过比较以上两个图,可以会发现,由于初始值的不同,会得到两个不同的极小值,所以权重初始值的设定也是十分重要的,通常的把W全部设置为0很容易掉到局部最优解,一般可以按照高斯分布的方式分配初始值。 2.有两种计算梯度的方法:(1)慢一些但是简单一些...转载 2018-09-17 17:20:48 · 279 阅读 · 0 评论 -
【转】python实现简单的LSTM
直接上代码:""" @file: my_lstm.py@Time: 2018/09/17@Author:hnq"""import numpyfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.layers import LSTMfrom keras.utils import ...转载 2018-09-17 17:02:19 · 1447 阅读 · 0 评论 -
【转】Gensim库详解
一、gensim介绍 gensim是一款强大的自然语言处理工具,里面包括N多常见模型:基本的语料处理工具- LSI - LDA - HDP - DTM - DIM - TF-IDF - word2vec、paragraph2vec二、训练模型1、训练#encoding=utf-8from gensim.models import word2vec# 参数:...转载 2018-09-17 16:18:11 · 1530 阅读 · 1 评论 -
【转】中文文本挖掘预处理流程总结
在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就对中文文本挖掘的预处理流程做一个总结。1. 中文文本挖掘预处理特点 首先我们看看中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。 首先,中文文本是没有像英文的单词空格那样隔开的,因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。所以一般我们需要用分词算法...转载 2018-09-17 15:52:43 · 319 阅读 · 0 评论 -
【转】基于深度学习的NER
命名实体识别(NER)是在自然语言处理中的一个经典问题,其应用也极为广泛。比如从一句话中识别出人名、地名,从电商的搜索中识别出产品的名字,识别药物名称等等。传统的公认比较好的处理算法是条件随机场(CRF),它是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。简单是说在NER中应用是,给定一系列的特征去预测每个词的标签。如下图:X我们可以看做成一句话...转载 2018-09-17 15:06:33 · 306 阅读 · 0 评论 -
【转】文本挖掘分词基本原理
在做文本挖掘的时候,首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词,但是也有时候需要把多个单词做为一个分词,比如一些名词如“New York”,需要做为一个词看待。而中文由于没有空格,分词就是一个需要专门去解决的问题了。无论是英文还是中文,分词的原理都是类似的,本文就对文本挖掘时的分词原理做一个总结。1. 分词的基本原理 现代分词都是基于统计的分词,而统计的样本内容...转载 2018-09-17 14:48:07 · 391 阅读 · 0 评论 -
【转】机器学习-Python自然语言处理库
自然语言处理的库非常多,下面列举一些对Python友好,简单易用,轻量,功能又全的库。1 中文中文自然语言处理工具评测:https://github.com/mylovelybaby/chinese-nlp-toolkit-testawesome: https://github.com/crownpku/Awesome-Chinese-NLPHanlp地址:https://git...转载 2018-09-17 12:58:48 · 505 阅读 · 0 评论 -
使用jieba分词并去除停用词流程程序
准备工作① 构建未分词文件、已分词文件两个文件夹,将未分词文件夹按类目定义文件名,各个类目的文件夹下可放置多个需要分词的文件。② 准备一份停用词(jieba自身应该是没有停用词的)③ 根据业务需要自定义词典(此处使用jieba自带字典) 分词去停词.py""" @file: 分词去停词.py@Time: 2018/08/27@Author:hnq"""#本程...原创 2018-09-15 18:00:03 · 11043 阅读 · 0 评论 -
WordCloud绘制词云
使用python绘制jieba分词后的词生成词云,并用想设置的背景图片设置底图:import jiebaimport numpy as npfrom PIL import Imagefrom matplotlib import pyplot as plt# from pyecharts import WordCloudfrom wordcloud import WordCloud,...原创 2018-08-24 15:04:39 · 420 阅读 · 0 评论 -
pyecharts的安装使用
什么是pyecharts?【更多参见官网:http://pyecharts.org/#/zh-cn/】 pyecharts 是一个用于生成 Echarts 图表的类库。 echarts 是百度开源的一个数据可视化 JS 库,主要用于数据可视化。pyecharts 是一个用于生成 Echarts 图表的类库。实际上就是 Echarts 与 Python 的对接。 使用 pye...转载 2018-08-19 22:54:33 · 14558 阅读 · 0 评论 -
jieba分词自定义词典
从语料库down下来的词频表,结合业务实际分词进行调优,添加云计算(jieba无法准确划分该词)等词及词频,down的文件格式使用python的文件读写进行调整:with open(file='./Minedic.txt',mode='r',encoding='utf-8') as f: read=f.readlines()for line in read: st...原创 2018-08-24 10:38:16 · 4870 阅读 · 0 评论 -
最全中文停用词表整理(1893个)
在网上搜罗了一下,发现这个停用词还是挺好用的:!"#$%&'()*+,---................................/.一.数.日///0123456789:://::;<=>>>?@ALex[\]^_`expsubsup|...转载 2018-08-27 16:26:46 · 60651 阅读 · 12 评论 -
词频统计
词频统计:""" @file: cipin.py@Time: 2018/11/08@Author:hnq"""import os, codecsimport jiebafrom collections import Counterdef get_words(txt): seg_list = jieba.cut(txt) c = Counter() f...转载 2018-11-08 22:18:55 · 271 阅读 · 0 评论