信用卡欺诈检测:样本不平衡
- 效果:过采样 > 下采样 > 原始数据
- SMOTE样本生成
- 逻辑回归、正则化惩罚项目(增加对权重参数的限制Loss+0.5*W^2)
拼写纠错:
新闻分类:数据量大,
- 分词:jieba.lcut
- 过滤掉停用词
- TF-IDF关键词提取:词频*逆文档频率,jieba.analyse.extract_tags
-
统计词频DataFrame.groupby
- WordCloud可视化文本显示
-
- LDA主题模型,无监督主题分类,也常用于图像处理
- gensim, corpora, similarities
- 准备语料库,corpora.Dictionary(),
- 对语料库无监督分类
- 文本特征提取:
- from sklearn.feature_extraction.text import CountVectorizer
- from sklearn.feature_extraction.text import TfidfVectorizer
- 朴素贝叶斯分类,from sklearn.naive_bayes import MultinomialNB
推荐系统
- 相似度计算=相关系数
- 基于用户的协同过滤(UserCF) vs 基于物品的协同过滤(ItemCF)
- 隐语义模型,有点像给个性贴标签
- 模型标准评估,具体问题具体分析
- Surprise库
- 练习数据: http://files.grouplens.org/datasets/movielens/
文本处理
数据源:https://dumps.wikimedia.org/zhwiki/20180501/
opencc:繁体转简体