自然语言处理
文章平均质量分 80
湾区人工智能
会多国语言的海归
展开
-
自然语言处理项目之新闻主题分类Python实现
'''#2018-06-10 June Sunday the 23 week, the 161 day SZ数据来源:链接:https://pan.baidu.com/s/1_w7wOzNkUEaq3KAGco19EQ 密码:87o0朴素贝叶斯与应用文本分类问题经典的新闻主题分类,用朴素贝叶斯做。#还有点问题。无法正确读取数据。UnicodeDecodeError: 'charma...原创 2018-06-11 11:12:00 · 5943 阅读 · 1 评论 -
自然语言处理项目之文档主题分类
#希拉里右键门,文档主题分类。LDA模型,数据读取还有点问题#数据来源:请联系公众号:湾区人工智能import numpy as npimport pandas as pdimport reimport codecs#UnicodeEncodeError: 'mbcs' codec can't encode characters in position 0--1: invalid c...原创 2018-06-11 11:21:07 · 2597 阅读 · 2 评论 -
jieba中文处理的学习
'''系统帮助还可以搜索库函数的定义import jiebahelp(jieba.cut)Help on method cut in module jieba:cut(sentence, cut_all=False, HMM=True) method of jieba.Tokenizer instance The main function that segments an e...原创 2018-06-10 10:32:04 · 881 阅读 · 0 评论 -
正则表达式学习
正则表达式正则表达式验证工具https://regexr.com/v1/基本字符.匹配除了换行符外所有字符\d匹配所有数字 能找到所有数字\D除了数字之外的所有字符\s匹配空格,换行,肉眼看到是空白的地方\S除了空白之外的东西 大写都是小写的反面\w数字,字母,下划线A--Z a--z 0--9之间的任意一个都会被匹配\W除了刚才的东西13分钟结束 指定多少个字符。...原创 2018-06-10 15:05:32 · 396 阅读 · 0 评论 -
自然语言项目之Python语种检测代码实现
#Python语种检测项目数据来源:#https://blog.csdn.net/btujack/article/details/80643211import re #用正则表达式,去掉噪声数据from sklearn.feature_extraction.text import CountVectorizer #抽取出来有用的特征啦,我们抽取1-gram和2...原创 2018-06-11 09:21:28 · 2210 阅读 · 4 评论 -
自然语言处理入门
因为最近在准备本科毕设的论文部分,所以最近原创的相对比较少,但是为了坚持每天学点新知识,我也逼着自己每天抽出晚上的1小时左右把自己想到的并且自己还没理解的小知识点的网上搜索下好的文章,能一下子读懂的,最好有图之类的文章,再根据自己的一些小理解,将文章编辑下,分享给大家。末尾再附上自己的当天准备的五个托福单词,这五个单词我也不是我先学过的,而是托福单词随机到的,在我编辑的时候我也刚好学下。正是在这种...转载 2018-11-20 18:00:27 · 299 阅读 · 0 评论 -
自然语言处理基础知识HR
1.假设句子按单词顺序为w1,w2,...,wn ,那么这个句子的概率公式为?句子S在语料库中出现的概率P(S)=P(w1,w2,w3...wn)。根据条件概率公式P(w1,w2,w3...wn)=P(w1)*P(w2|w1)*p(w3|w1,w2)...P(wn|w1,w2...w(n-1))。2.是否句子越长概率就越低?为什么?3.一个语言模型的困惑度是怎么计算的?是什么意义?理论方法...转载 2018-11-18 11:41:13 · 507 阅读 · 0 评论