数据分析

一、异常值是指什么?请列举识别连续型变量异常值的方法? 答:异常值是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 常用的检验法有(按优劣次序): (1)t检验法 (2)格拉布斯检验法 (3)峰度检验法 (4)狄克逊检验...

2019-08-29 14:40:31

阅读数 6

评论数 0

【NLP】NO6:隐马尔可夫HMM和条件随机场CRF

一、隐马尔可夫HMM 二、条件随机场CRF

2019-08-26 16:43:04

阅读数 8

评论数 0

【NLP】NO5:文本聚类

一、主要步骤 语料加载->分词->去停用词->抽取词向量模型特征->基于tf-idf和word2vec进行kmeans中文文本聚类 import random import jieba import pandas as pd import n...

2019-08-26 14:41:29

阅读数 12

评论数 0

【NLP】NO4:文本分类

import pandas as pd #加载停用词,txt内容可以随项目进行改变 stopwords = pd.read_csv('stopword.txt',index_col=False,quoting=3,sep='\t',names=['stopwords'],encoding='utf...

2019-08-21 17:35:03

阅读数 12

评论数 0

【NLP】NO3:文本可视化

常用可视化图:词云、分布图、Document Cards、树状图、网络图、力导向图、叠式图、Word Tree、地理热力图、ThemeRiver、SparkClouds、TextFlow、基于矩阵视图的情感分析可视化。 一、词云 分词、去停用词、统计词频、绘制词云 #引入所需要的包 import ...

2019-08-20 19:51:28

阅读数 11

评论数 0

【NLP】NO2:中文关键词提取

一、基于TF-IDF提取关键词 import jieba.analyse #withWeight表示是否需要返回关键词权重值 #allowPOS表示指定的词性 word = " ".join(jieba.analyse.extract_tags(word,topK=20,wit...

2019-08-20 19:30:09

阅读数 10

评论数 0

【NLP】NO1:自然语言处理的完整机器处理流程

二、中文自然处理的主要步骤 (1)语料清洗 1.人工去重、对齐、删除和标注 2.基于规则提取内容、正则表达式匹配 3.根据词性和命名实体提取 (2)中文分词—难点在于歧义和新词 1.基于字符串匹配的分词方法 2.基于理解的分词方法 3.基于统计的分词方法 4.基于规则的分词方法 (3) 词性标注 ...

2019-08-20 16:19:30

阅读数 13

评论数 0

word中插入代码

1.打开这个网站 http://www.planetb.ca/syntax-highlight-word 2.将需要插入在word中的代码完整的复制到该网站提示的文本框内,选择你的代码类型,如C,C++,HTML等,并点击提交。 3.该网页会自动将该代码生成到一个新的页面,此时ctrl+A全选,后...

2019-08-09 17:22:57

阅读数 38

评论数 0

IOPub data rate exceeded问题解决

1.anaconda prompt中输入 jupyter notebook --NotebookApp.iopub_data_rate_limit=2147483647 2.其中2147483647可以任意修改

2019-08-09 12:00:48

阅读数 11

评论数 0

提示
确定要删除当前文章?
取消 删除