机器学习
无敌小熊猫
一只不情愿的码农。
展开
-
分类器的简单应用---NBC(朴素贝叶斯)
分类的问题----------------------------分类的使用.根据名字判别性别.文本分类.词性分类.句子分割.识别对话行为分类算法.朴素贝叶斯.决策树........根据名字判别性别建立分类器1-确定输入特征2-划分数据集3-使用训练集构建分类器4-使用测试集测试分类器的效果def gender_features(word): retu...原创 2018-10-07 15:15:18 · 646 阅读 · 0 评论 -
一个简单的机器学习项目---撰写自己的分类器(仅涉及简单的原理)
本人小菜鸟一枚,堪称史上最不会敲代码的程序员。但是我有一腔热血,我一个不会打游戏,又不会撩妹的穷屌丝,不学习实在是不知道要去干嘛,虽然脑子笨,但是也得学点东西,要不然我一体重不过百,身高不过百的小老爷们怎么在社会上立足。别人可以‘拼爹’,我等屌丝就只能靠自己喽。 说是我的博客,其实和自己的学习笔记差不多。我只是菜鸟一枚,学完习当然要做些笔记,古话说的好“好记性不如烂笔头”。...原创 2018-10-03 18:30:34 · 946 阅读 · 1 评论 -
自然语言处理基础-Kaggle竞赛题
题目-Predict the relevance of search results on homedepot竞赛题地址:https://www.kaggle.com/c/home-depot-product-search-relevance参考github上的原文地址:https://github.com/yjfiejd/Product_search_relevance_NLP-/blob/...原创 2019-08-27 21:08:43 · 804 阅读 · 0 评论 -
TF-IDF计算
TF(t)=(t出现再文档中的次数)/文档中的term总数IDF(t)=log(文档总数/(含有t的文档总数+1))TF-IDF=TF*IDF注意:词干提取和词性归一化处理(NLTK实现stemming 和lemma)...原创 2019-08-27 21:16:42 · 417 阅读 · 0 评论 -
词向量到word2vec
自然语言处理的应用 1-离散表示方法-one-hot、bag of word 等bi-gram方法实例如下运用离散表示的问题有:2-分布式表示方法共现矩阵实例NNLM语言模型表示NNLM结构如下3-word2vec3.1 CBOW负例采样及skip-gram...原创 2019-08-28 18:54:25 · 123 阅读 · 0 评论 -
LDA模型做主题分类
利用LDA模型对邮件内的内容做主题分类# -*-coding: UTF-8 -*-# @Time:2019/9/614:59# @author superxjz# @func 邮件分类#导入需要的一些库import numpy as npimport pandas as pdimport refrom gensim import corpora,models,simila...原创 2019-09-06 19:58:15 · 2502 阅读 · 0 评论 -
IMDB影评分析实验
数据集资源:http://www.imdb.com/interfaces/该数据集中包含了5万条影评(包括正面评价和负面评价),利用这5万条影评进行数据分析。数据格式:5万条影评分别处于5万个txt文件中工作步骤如下:1-将这50000个txt文件(评论)整合成一个表格,表格分为两列,第一列表示评论的内容,第二列表示评论是属于正面(用1表示)还是负面(用0表示)2-将评论的内容(原始...原创 2019-09-11 19:13:02 · 773 阅读 · 0 评论