![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习和自然语言处理相关
文章平均质量分 75
alicelmx
玻璃晴朗,橘子辉煌
展开
-
【自然语言处理】中文分词方案
转载的一篇比较好的分词方法总结转载 2018-11-02 14:59:36 · 1350 阅读 · 0 评论 -
【自然语言处理】Neo4j Desktop 管理工具的安装和应用
Neo4j desktop版初学者指南原创 2018-11-13 14:34:51 · 2586 阅读 · 0 评论 -
XGBoost参数调优完全指南
大杀器XGboost调参技巧转载 2018-11-14 13:16:34 · 1517 阅读 · 0 评论 -
【数据挖掘】特征工程全过程
特征工程转载 2018-11-12 20:58:04 · 904 阅读 · 4 评论 -
算法工程师必看的优秀博客【持续更新。。。】
小明酱整理的优秀博客原创 2018-11-17 18:52:52 · 1437 阅读 · 0 评论 -
【集成学习】lightgbm入门及模板
LGB入门转载 2018-12-02 13:14:18 · 1745 阅读 · 2 评论 -
【百度点石(WSDM)】 Retention Rate of Baidu Hao Kan APP Users 小白经验分享
新手小白的第一次数据科学比赛记录原创 2019-02-25 16:45:03 · 1732 阅读 · 1 评论 -
数据分析中常用小函数汇总【持续更新,个人笔记。。。】
桶分析原创 2019-02-25 18:50:58 · 660 阅读 · 0 评论 -
数据挖掘公开课推荐(含下载链接)
数据挖掘公开课推荐原创 2019-03-28 15:01:29 · 1718 阅读 · 4 评论 -
基于贝叶斯分类器的社区UGC反垃圾模型
一个以前写的落地项目的总结原创 2019-07-14 13:04:42 · 172 阅读 · 0 评论 -
傻瓜式自动机器学习库:TPOT
自动机器学习的傻瓜式方法TPOT原创 2019-05-02 18:57:46 · 4958 阅读 · 1 评论 -
如何在 Kaggle 首战中进入前 10%
如何在 Kaggle 首战中进入前 10%转载 2019-05-04 18:39:31 · 396 阅读 · 0 评论 -
mac下Autosklearn安装和官方手册
AUTOSKLEARN安装和学习资料总结原创 2019-05-10 10:28:07 · 767 阅读 · 0 评论 -
数据挖掘模型中的IV和WOE详解
数据挖掘模型中的IV和WOE详解转载 2019-08-14 11:37:23 · 720 阅读 · 0 评论 -
【自然语言处理】良心资源,不点开会后悔的那种
一些会让你眼前一亮的资源,不用费心找了,这全有转载 2018-10-31 12:54:52 · 978 阅读 · 0 评论 -
【自然语言处理】python中的jieba分词使用手册
分词工具jieba的使用说明书,很全很详细转载 2018-10-31 09:17:47 · 522 阅读 · 0 评论 -
利用Grid Search进行调参
什么是网格搜索,以及利用他进行调参的小demo原创 2018-10-25 20:47:13 · 4030 阅读 · 0 评论 -
数据挖掘(清华公开课)
跟着清华的一个公开课学习数据挖掘原创 2017-12-13 17:35:20 · 3425 阅读 · 0 评论 -
舆情监控系统——step1.爬取微信公众号文章
小明酱于2018年元旦更新,写的还是很糙,如果你在爬虫问题中遇到问题,欢迎交流哦,评论区随时为你开放! 实习两周过去了,目前任务量还不是很大。我的老板很nice,是个军校生,给我安排的任务也比我预想的要贴近我的研究方向,做的是微信公众号文章的舆情监控系统,以下是该系统总体设计流程图:目前第一周是爬取微信公众号的文章,主要功能如下:按照搜索公众号id和关键字两种方法爬取文章的标题、内原创 2017-12-22 09:34:15 · 7508 阅读 · 3 评论 -
舆情监控系统——step2.CNN-基于tensorFlow实现文本分类
中间经过了漫长的期末考试周,第二步拖了半个多月,终于把第二步做好了,使用了两种方法,现在我先主要介绍基于深度学习的方法GitHub代码点击此处。数据集选择一开始数据集大概每类300条,准确率只有86%左右,文本分类要求数据量足够,才能训练处合适的模型,我选择数据集的过程中经历了很多波折,最后使用的清华的THUCNews,我觉得是我能找到的最优的数据集了,关于数据集我专门写了一个博文,请转载 2018-01-17 15:38:14 · 5096 阅读 · 4 评论 -
NLP必不可少的中文数据资源
如果您缺少一份语料的话,记得戳进来哦原创 2018-01-17 12:30:10 · 16035 阅读 · 3 评论 -
舆情监控系统——step2.利用SVM实现中文文本分类
基本流程1、准备好数据食材、去停用词并利用结巴(jieba)进行分词处理数据食材选用参考:NLP中必不可少的语料资源jieba分词模块参考官方文档啦~# cutWords.py2、利用卡方检验特征选择卡方检验:在构建每个类别的词向量后,对每一类的每一个单词进行其卡方统计值的计算。 1. 首先对卡方 检验所需的 a、b、c、d 进行计算。 a 为在这个分类下包含这个词的文...原创 2018-05-24 08:32:58 · 3020 阅读 · 6 评论 -
利用itchat接口进行微信好友数据分析
一个小的不能再小的demo原创 2018-06-29 22:20:16 · 1845 阅读 · 2 评论 -
KMeans秘籍之如何确定K值
最常用最简单的方法可视化数据,然后观察出聚类聚成几类比较合适绘制出k-average with cluster distance to centroid的图表,观察随着k值的增加,曲线的下降情况,当曲线不再“急剧”下降时,就是合适的k值计算不同k值下KMeans算法的BIC和AIC值,BIC或AIC值越小,选择该k值使用 Canopy算法先进行粗略的聚类,产生的簇的个数,作为KMeans算...原创 2018-07-10 20:48:59 · 14208 阅读 · 1 评论 -
KMeans秘籍之如何选取初始质心
初始质心的选取常见的方法是随机的选取初始中心,但是这样簇的质量常常很差。处理选取初始质心问题的一种常用技术是:多次运行,每次使用一组不同的随机初始质心,然后选取具有最小SSE(误差的平方和)的簇集。这种策略简单,但是效果可能不好,这取决于数据集和寻找的簇的个数。取一个样本,并使用层次聚类技术对它聚类。从层次聚类中提取k个簇,并用这些簇的质心作为初始质心。该方法通常很有效,但仅对...原创 2018-07-10 22:07:58 · 7408 阅读 · 0 评论 -
sklearn Pipelines实现
一个仍需改进的全新知识点原创 2018-07-11 15:19:36 · 171 阅读 · 0 评论 -
利用python对简书文章进行文本挖掘【词云/word2vec/LDA/t-SNE】
对简书文章进行数据可视化、文本挖掘原创 2018-08-02 17:16:20 · 3048 阅读 · 2 评论 -
t-SNE算法入门介绍及对手写数字降维可视化demo
t-sne初涉,第一使用这种降维方法原创 2018-08-02 17:49:14 · 3078 阅读 · 7 评论 -
模型融合—Stacking初涉
集成学习方法之stacking原创 2018-10-16 13:15:17 · 1390 阅读 · 1 评论 -
OneHotEncoder独热编码和LabelEncoder标签编码
数据处理过程中使用的两种编码原创 2018-10-17 11:08:28 · 887 阅读 · 0 评论 -
互联网金融风控模型
https://blog.csdn.net/a18302465887/article/details/79288130转载 2019-08-19 17:14:53 · 390 阅读 · 0 评论