![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
6丁一的猫
为时未晚
展开
-
深度学习 word2vec(一)
一.前言 伴随着深度学习的大红大紫,只要是在自己的成果里打上 deep learning 字样,总会有 人去看。 深度学习可以称为当今机器学习领域的当之无愧的巨星, 也特别得到工业界的青睐。 在各种大举深度学习大旗的公司中,Google 公司无疑是旗举得最高的,口号喊得最响 亮的那一个。Google 正好也是互联网界璀璨巨星,与深度学习的联姻,就像影视巨星刘德 华和林志玲的结合那么光彩夺翻译 2016-11-07 11:54:19 · 1227 阅读 · 0 评论 -
微信公众号机器人开发
假设有个场景,机器人帮助用户询问安装电视,对用户提出的安装预定进行自动记录和提取里面关键信息,比如姓名,电话,购买电视机型号,安装地址等。。这样可以节约许多的人力,使用机器人客服去自动提取这些信息。可以先看说明,再到github参考代码。 github链接如下:客服机器人链接 欢迎star,不了解可以提问哦 此机器人属于任务型目前仅仅对于电视安装预定部分,不像微软小冰等。 首先的以个人微信的原创 2017-12-14 17:29:11 · 1476 阅读 · 2 评论 -
python调用Hanlp进行命名实体识别
1 python与jdk版本位数一致 2 pip install jpype1(python3.5) 3 类库hanlp.jar包、模型data包、配置文件hanlp.properties放在一个新建目录 4 修改hanlp.properties中root根目录,找到data代码调用如下:#coding:utf-8'''Created on 2017-11-21@author: 刘帅''原创 2017-11-21 13:39:53 · 8310 阅读 · 3 评论 -
HMM之维特比算法
HMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个朋友每天根据天气{下雨,天晴}决定当天的活动{公园散步,购物,清理房间}中的一种,我每天只能在twitter上看到她发的推“啊,我前天公园散步、昨天购物、今天清理房间了!”,那么我可以根据她发的推特推断东京这三天的天气。在这个例子里,显状态是活动,隐状态是天气。 任何一个HMM都可以通过下列五元组来描述:原创 2017-05-24 18:59:42 · 701 阅读 · 0 评论 -
python使用grid-search调参
博文参考:http://blog.csdn.net/abcjennifer/article/details/23884761目标就是解决:vectorizer取多少个word呢?预处理时候要过滤掉tf>max_df的words,max_df设多少呢?tfidftransformer只用tf还是加idf呢?classifier分类时迭代几次?学习率怎么设? ……..本文对随机梯度下降和svm(rbf原创 2017-04-11 14:03:51 · 1810 阅读 · 0 评论 -
python 卡方检验原理及应用
卡方检验,或称x2检验。无关性假设: 假设我们有一堆新闻或者评论,需要判断内容中包含某个词(比如6得很)是否与该条新闻的情感归属(比如正向)是否有关,我们只需要简单统计就可以获得这样的一个四格表:组别 属于正向 不属于正向 合计不包含6得很 19 24 43包含6得很 34 10 44合计 53 34 87 通过这个四格表我们得到的第一个信息是:内容是否包含原创 2016-12-20 11:06:51 · 8802 阅读 · 1 评论 -
python情感预测(三)
对review进行情感正负面判断:#coding=utf-8"""Use positive and negative review set as corpus to train a sentiment classifier.This module use labeled positive and negative reviews as training set, then use nltk s原创 2016-12-15 16:54:45 · 1351 阅读 · 0 评论 -
python处理情感预测(二)
1 读取excel review数据并过滤停留词,返回结果# Function of reading excel file contain review data and filtering stopwords, then return a list of review wordsdef word_by_word_review(filepath, sheetnum, colnum): #原创 2016-12-15 15:05:10 · 839 阅读 · 0 评论 -
python处理情感预测(一)
1 数据集为用户对各种手机的review。 读取excel中的reviewdef get_excel_data(filepath, sheetnum, colnum, para): table = xlrd.open_workbook(filepath) print len(table.sheets()) sheet = table.sheets()[sheetnum-1]原创 2016-12-14 17:03:16 · 1629 阅读 · 0 评论 -
使用simhash对文章去重
我们知道,在文本去重的时候,有很多方式,在文本与文本之间对比,如果是整篇对比,费时费力,有人就想到用什么东西代表每篇文章,如摘要,当然,对计算机来说,摘要和整篇的区别只是缩小了篇幅,所以又有人想到了采用关键字来对比。这样确实可以大大缩减我们对比的复杂性。那我们怎么得到一篇文章的关键字呢?一般采用词频(TF),但是只用词频,如中文出现类似“的”、“我们”之类的词语很多,应该怎么去掉这些词语呢,手动去掉原创 2016-11-21 15:18:12 · 2224 阅读 · 0 评论 -
用word2vector做词相似性聚类
最近需要做个热点预测的东西,听说word2vector很强大。于是就试试word2vector。任务就是分析明星的离婚,结婚模型。 比如王宝强离婚,张靓颖结婚。首先要获取数据: 这里小伙伴给了相关新闻的url:这里有点让我淡疼,需要自己去爬取。 怎么爬的,爬虫不是本文相关的,有机会后面会详解。获取数据为: 然后对其进行分词处理:所有数据为一行哈。。。然后进行训练判断。。。【王宝强】和【马蓉】原创 2016-11-18 16:19:18 · 7035 阅读 · 0 评论 -
CRF++实体识别
训练数据集1980年人名日报数据 数据格式是这样的,但是crf++需要训练的数据格式不匹配。 做数据过滤。 直接在notepad++里进行处理。 正则表达式替换所有日期:1998.*\d/m继续替换所有\s\s表示两个空格替换为\n。 重复直至没有\s\s。 /替换为空格 最后得到数据集为:符合训练格式。编写template:#UnigramU00:%x[-3,0]U01:%x[-原创 2016-11-10 13:03:16 · 1918 阅读 · 1 评论 -
深度学习 word2vec (二)
在看 word2vec 的资料的时候,经常会被叫去看那几篇论文,而那几篇论文也没有系统地说明 word2vec 的具体原理和算法,这样看资料就没有得到应有的效果。 为了节省看无用资料的时间,就整理了一个笔记,希望能帮助各位尽快理word2vec的基本原理,避免浪费时间。一 、CBOW 加层次的网络结构与使用说明 Word2vec 总共有两种类型, 每种类型有两个策略, 总共 4 种。 这里先转载 2016-11-07 17:01:29 · 744 阅读 · 0 评论 -
nlp基础
from sklearn.feature_extraction.text import CountVectorizerIn [2]:vect = CountVectorizer()vectOut[2]:CountVectorizer(analyzer='word', binary=False, decode_error='strict', dtype=<class ...原创 2018-05-10 08:41:52 · 368 阅读 · 0 评论