自然语言处理
文章平均质量分 80
湾区人工智能
会多国语言的海归
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
自然语言处理项目之新闻主题分类Python实现
''' #2018-06-10 June Sunday the 23 week, the 161 day SZ 数据来源:链接:https://pan.baidu.com/s/1_w7wOzNkUEaq3KAGco19EQ 密码:87o0 朴素贝叶斯与应用 文本分类问题 经典的新闻主题分类,用朴素贝叶斯做。 #还有点问题。无法正确读取数据。UnicodeDecodeError: 'charma...原创 2018-06-11 11:12:00 · 6170 阅读 · 1 评论 -
自然语言处理项目之文档主题分类
#希拉里右键门,文档主题分类。LDA模型,数据读取还有点问题 #数据来源:请联系公众号:湾区人工智能 import numpy as np import pandas as pd import re import codecs #UnicodeEncodeError: 'mbcs' codec can't encode characters in position 0--1: invalid c...原创 2018-06-11 11:21:07 · 2716 阅读 · 2 评论 -
jieba中文处理的学习
''' 系统帮助还可以搜索库函数的定义 import jieba help(jieba.cut) Help on method cut in module jieba: cut(sentence, cut_all=False, HMM=True) method of jieba.Tokenizer instance The main function that segments an e...原创 2018-06-10 10:32:04 · 985 阅读 · 0 评论 -
正则表达式学习
正则表达式 正则表达式验证工具 https://regexr.com/v1/ 基本字符 .匹配除了换行符外所有字符 \d匹配所有数字 能找到所有数字 \D除了数字之外的所有字符 \s匹配空格,换行,肉眼看到是空白的地方 \S除了空白之外的东西 大写都是小写的反面 \w数字,字母,下划线A--Z a--z 0--9之间的任意一个都会被匹配 \W除了刚才的东西 13分钟结束 指定多少个字符。...原创 2018-06-10 15:05:32 · 491 阅读 · 0 评论 -
自然语言项目之Python语种检测代码实现
#Python语种检测项目数据来源: #https://blog.csdn.net/btujack/article/details/80643211 import re #用正则表达式,去掉噪声数据 from sklearn.feature_extraction.text import CountVectorizer #抽取出来有用的特征啦,我们抽取1-gram和2...原创 2018-06-11 09:21:28 · 2425 阅读 · 4 评论 -
自然语言处理入门
因为最近在准备本科毕设的论文部分,所以最近原创的相对比较少,但是为了坚持每天学点新知识,我也逼着自己每天抽出晚上的1小时左右把自己想到的并且自己还没理解的小知识点的网上搜索下好的文章,能一下子读懂的,最好有图之类的文章,再根据自己的一些小理解,将文章编辑下,分享给大家。末尾再附上自己的当天准备的五个托福单词,这五个单词我也不是我先学过的,而是托福单词随机到的,在我编辑的时候我也刚好学下。正是在这种...转载 2018-11-20 18:00:27 · 371 阅读 · 0 评论 -
自然语言处理基础知识HR
1.假设句子按单词顺序为w1,w2,...,wn ,那么这个句子的概率公式为? 句子S在语料库中出现的概率P(S)=P(w1,w2,w3...wn)。根据条件概率公式P(w1,w2,w3...wn)=P(w1)*P(w2|w1)*p(w3|w1,w2)...P(wn|w1,w2...w(n-1))。 2.是否句子越长概率就越低?为什么? 3.一个语言模型的困惑度是怎么计算的?是什么意义? 理论方法...转载 2018-11-18 11:41:13 · 637 阅读 · 0 评论
分享