数据挖掘
apple-nul
数据挖掘、自然语言处理、Fintech、区块链、计量经济学
展开
-
数据挖掘导论
第一章 数据挖掘的简介转载 2018-04-27 18:18:47 · 1305 阅读 · 0 评论 -
python wordcloud matplotlib(绘图)
##############matplotlib################import maplotlib.pyplot as pltimport numpy as np # 绘制曲线x = linspace(0, 10, 100)ps = plot(x, sin(x), x, cos(x))# 加文字t1 = text(1, -0.5, "hello")# 文字坐标改变...原创 2018-07-17 21:12:05 · 1078 阅读 · 0 评论 -
python chatterbot(案例)
from chatterbot import ChatBotfrom chatterbot.trainers import ListTrainerconversation = [ "Hello", "Hi there!", "How are you doing?", "I'm doing great.", "That is good to hear"...转载 2018-07-17 21:17:12 · 1449 阅读 · 0 评论 -
阐述分类算法评价标准-以网络借贷平台为例
背景:互联网金融虽然给投资者提供了新的理财形式,但跑路经营不善等问题同样会带来风险。以小贷的问题平台和正常平台来阐述运用二分类逻辑回归算法的评价标准描述。常见的评价指标:混淆矩阵、Accuray、Precision、Recall、Roc、Sensitive、Error Rate1.混淆矩阵也成误差矩阵,以N行N列的形式表示。 预测类 ...原创 2018-08-29 17:38:27 · 503 阅读 · 0 评论 -
xgboost特征重要性
from sklearn.model_selection import train_test_splitfrom sklearn import metricsfrom sklearn.datasets import make_hastie_10_2from xgboost.sklearn import XGBClassifierfrom xgboost import plot_impo...原创 2019-02-16 21:56:58 · 1939 阅读 · 1 评论 -
python sklearn 案例
#导入模块from sklearn import datasetsfrom sklearn.cross_validation import train_test_split,cross_val_scorefrom sklearn.neighbors import KNeighborsClassifier#创建数据iris = datasets.load_iris()iris_X =...转载 2018-07-17 20:51:43 · 637 阅读 · 0 评论 -
分类与标注词汇
将词汇按它们的词性(parts-of-speech, pos)分类以及相应的标注它们的过程被成为词性标注(part-of-speech tagging, pos tagging)或简称标注。词性标注也成为词性或词汇范畴。用于特定任务的标记的集合被称为一个标记集。5.1 使用词性标注器一个词性标注器(pos tagger)处理一个词序列,为每个词加一个词性标记text = nltk.wo...转载 2018-07-17 20:43:29 · 733 阅读 · 0 评论 -
数据清理
数据清理试图填充缺失值,光滑噪声并识别离群点,纠正数据中的不一致。1、缺失值的处理(1)忽略元祖:有些数据挖掘算法可以自动忽略缺失数据(2)人工填写缺失值:很费时,特别是缺失数据集较多时,不可实现(3)使用一个全局常量填充缺失值:如Unknown(4)使用属性的均值填充缺失值:平均工资(5)使用与给定元祖属同一类的所有样本的属性均值:不同性别的平均工资(6)使用最可能的原创 2018-05-16 15:49:00 · 1009 阅读 · 0 评论 -
Deriving the Pricing Power of Product Features by Mining Consumer Reviews
过去几年在文本研究中引入了许多用于识别消费者评论中提及的产品特征的技术(Hu and Liu 2004,Ghani et al.2006)。一种流行的技术是使用词性(POS)标注器在评论中使用其词性标注每个词并标记该词是否是名词,形容词,动词等。名词和名词短语是产品功能的常用候选语言,尽管其他结构(如动词短语)也被使用。替代技术涉及在文本中搜索统计模式,例如在评论中经常出现的单词和短语。混合方法结...翻译 2018-05-21 11:43:55 · 473 阅读 · 5 评论 -
散点图、残差、对数图
散点图噪声:平滑(样条、LOSSE局部线性回归)残差(均匀分布、不应该具有某种趋势、有正有负)对数图(控制数据中的幅度、乘法转换加法、指数及幂律行为)...原创 2018-07-17 20:44:01 · 4514 阅读 · 0 评论 -
数据集成、数据变换、维度归约、属性子集选择
1、数据集成:将多个数据源中的数据合并并存放在一个一致的数据仓库中。数值属性数据判断重复:计算属性A和属性B的相关系数。其中相关系数在[-1,1]之间,若相关系数大于0且值越大说明相关性越强,若相关系数等于0说明相互独立不存在相关性,若小于0说明负相关。离散属性A和B之间的相关关系可以通过卡方检验,自由度为(r-1)(c-1),其中A的c个值构成列,B的r个值构成行。属性冗余还可能是因原创 2018-06-06 14:57:40 · 5125 阅读 · 0 评论 -
word2vec 的相关参数
sentences:可以是一个 list sg: 用于设置训练算法,默认为0,对应CBOW算法;sg=1则采用skip-gram算法。 size:是指特征向量的维度,默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。 window:表示当前词与预测词在一个句子中的最大距离是多少 alpha: 是学习速率 seed:用于随机数发生器。与初始化词向量有关 ...转载 2019-02-13 18:09:21 · 742 阅读 · 0 评论 -
基于gensim包的word2vec
import gensiminputs = open('C:\\Users\\NAU\\Desktop\\neg_tag_del.txt', 'r', encoding='utf8')outputs = open('C:\\Users\\NAU\\Desktop\\neg_feature.txt', 'w', encoding='utf8')sentence = inputs.readlin...原创 2019-05-12 12:52:09 · 310 阅读 · 0 评论 -
sklearn之kmeans文本聚类主题输出
from sklearn import feature_extractionfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.cluster import KMeanscorpu...原创 2018-12-31 14:49:34 · 2125 阅读 · 0 评论