用
无峥
这个作者很懒,什么都没留下…
展开
-
基于贝叶斯算法文本分析之新闻分类
文本分析中的重要概念 1 停用词:用来缩小语料 停用词是指在语料中大量出现,但对分文本的分析没啥大用的文本。这种词我们一般称为停用词。现在有好多停用词表,网上都可以搜到。 2 TF-idf:用来提取关键词 TF:指的是词频。计算方式有很多种我们一般采用:某个词在文章中的出现次数/某个词在语料库中出现的总数 idf:指的是逆转载 2017-11-10 16:15:11 · 1700 阅读 · 0 评论 -
信用卡欺诈案例
# 信用卡欺诈人员预测import pandas as pdimport matplotlib.pyplot as pltimport numpy as np%matplotlib inlinedata = pd.read_csv('creditcard.csv')data.head()#type(data) pandas.core.frame.DataFramedata_view原创 2017-10-21 16:20:19 · 3288 阅读 · 1 评论 -
xgboost 用法讲解
import xgboost/home/yanghua/anaconda2/lib/python2.7/site-packages/sklearn/cross_validation.py:41: DeprecationWarning: This module was deprecated in version 0.18 in favor of the model_selection module i原创 2017-12-09 21:25:12 · 8443 阅读 · 1 评论 -
信用卡欺诈案例(终结)
该案例主要包含着: 1、不平衡样本的采样方法 2、sklearn中进行模型训练的整个过程(从单一模块组合到优化方法都包括了)import pandas as pdimport matplotlib.pyplot as pltimport numpy as np%matplotlib inlinedata = pd.read_csv("creditcard.csv")dat原创 2018-01-14 09:51:47 · 2267 阅读 · 1 评论