机器学习实战代码实现
sinat_15355869
这个作者很懒,什么都没留下…
展开
-
自然语言处理学习 - Word2vec基础数学篇
【转载】机器学习算法实现解析——word2vec源码解析 --- 作者:zhiyong_will【转载】word2vec 中的数学原理详解(一)目录和前言 --- 作者:peghoty【转载】word2vec数学原理 【转载】word2vec有什么应用?--- 来自知乎各位大牛现身说法【转载】[NLP] 秒懂词向量Word2vec的本质 --- 知乎穆文『数据挖掘机养成记』【转载】word2vec...原创 2018-04-20 08:02:27 · 282 阅读 · 0 评论 -
Kaggle_Daily News for Stock Market Prediction_基础篇
Daily News for Stock Market Prediction: https://www.kaggle.com/aaron7sun/stocknews/version/【Github】: https://github.com/yjfiejd/News_predict (可下载数据与python文件)通过历史数据:包含每日点击率最高的25条新闻,与当日股市涨跌,来预测未来股市涨跌(请勿...原创 2018-04-24 16:44:45 · 1281 阅读 · 1 评论 -
kaggle - Rossmann Store Sales - 销量预测
Kaggle : Rossmann Store Sales学习的点:#numpy tolist()的用法:https://blog.csdn.net/lilong117194/article/details/78437224#Python isinstance() 函数:http://www.runoob.com/python/python-func-isinstance.html#Pytho...原创 2018-05-09 07:55:26 · 5260 阅读 · 5 评论 -
自然语言处理学习 - NLTK 预热篇
NLTK 在NLP上的经典应用: 情感分析、文本相似度、文本分类【转载】NLTK 基本功能介绍:python的nltk中文使用和学习资料汇总帮你入门提高 - 作者:糊糊 文本处理的流程 TF-IDF 的学习1) 自带语料库的使用:#自带语料库使用from nltk.corpus import brownbrown.categories()['adventure', 'belles_let...原创 2018-04-20 17:11:04 · 251 阅读 · 0 评论 -
Kaggle_Daily News for Stock Market Prediction_进阶篇
进阶篇与基础篇的区别是:采用了Word2Vec方法,自己构建语料库迅雷NLP模型Github: https://github.com/yjfiejd/News_predict 需要补充的知识点:#需要学习的:#numpy.ndarray.flatten https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.flat...原创 2018-04-24 22:31:13 · 903 阅读 · 0 评论 -
RNN_文本生成_字符篇chars
Github:https://github.com/yjfiejd/text_generation_chars/blob/master/rnn_text_generation_chars.py (代码&英文文本数据)# -*- coding:utf8 -*-# @TIME : 2018/5/2 下午3:47# @Author : Allen# @File : rnn_text_gen...原创 2018-05-02 18:51:29 · 335 阅读 · 0 评论 -
RNN_文本生成_单词篇words
[问题]:遇到一个问题:运行:if word in vocab:报错:TypeError: argument of type 'Word2VecVocab' is not iterable ???# -*- coding:utf8 -*-# @TIME : 2018/5/2 下午10:17# @Author : Allen# @File : rnn_text_generation_words...原创 2018-05-03 07:11:57 · 970 阅读 · 2 评论 -
卷积神经网络练习_CNN_MNIST
【参考】:第一阶段-入门详细图文讲解tensorflow1.4 -(五)MNIST-CNN 作者:Alun_Sun【参考】:https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/5-04-CNN2/ 作者:Mofan 一图胜千言:代码地址&数据地址:https://github.com/yjfiejd/CNN...原创 2018-05-03 20:35:33 · 381 阅读 · 0 评论 -
Kaggle - Home Depot Product Search Relevance 基础篇
Predict the relevance of search results on homedepot.comkaggle 地址:https://www.kaggle.com/c/home-depot-product-search-relevanceGithub:https://github.com/yjfiejd/Product_search_relevance_NLP-/blob/maste...原创 2018-04-27 03:30:34 · 1084 阅读 · 3 评论 -
Kaggle - Home Depot Product Search Relevance 进阶篇
Github: https://github.com/yjfiejd/Product_search_relevance_NLP-/blob/master/product_search_relevance_advanced.ipynb (可查看jupyter notebook)基础篇与进阶篇最大的区别:特征提取的方式不同基础篇中特征的提取太粗糙:1)关键字常长度 2)用搜索词中的单词在产品title...原创 2018-04-27 16:22:22 · 662 阅读 · 1 评论 -
News_predict - 机器学习分类(0/1)
复习代码如下:# -*- coding:utf8 -*-# @TIME : 2018/5/18 上午11:10# @Author : Allen# @File : 5.17_news_predict.pyimport pandas as pdimport numpy as npfrom sklearn.metrics import roc_auc_scorefrom datetim...原创 2018-05-19 10:29:45 · 606 阅读 · 0 评论 -
cats_vs_dogs kaggle - cnn 练习
Github: https://github.com/yjfiejd/CNN_learning/blob/master/cats_vs_dogs_jupyter_notebook.ipynb (jupyter notebook)kaggle: https://www.kaggle.com/c/dogs-vs-cats备注:由于mac电脑带不动,目前只训练了部分照片,这样快些出结果思路:#【1】#导...原创 2018-05-07 00:07:31 · 428 阅读 · 0 评论 -
基于神经网络的意图识别 - 基础版
Github: https://github.com/yjfiejd/Text_Classification_NN/blob/master/text_classification_6.28.py# -*- coding:utf8 -*-# @TIME : 2018/6/28 下午10:34# @Author : Allen# @File : text_classification_6.28...原创 2018-06-29 08:51:21 · 1659 阅读 · 0 评论 -
Home Depot Product Search Relevance 项目总结分析
请看大屏幕原创 2018-07-05 08:57:33 · 484 阅读 · 0 评论 -
tf.name_scope() 与tf.variable_scope()的区别 - 变量共享
Github:https://github.com/yjfiejd/Tensorflow_leaning/blob/master/tensorflow_22_name_scope.py【转】:https://www.bilibili.com/video/av16001891/?p=38【转】:TF Boys (TensorFlow Boys ) 养成记(三): TensorFlow 变量共享# -...原创 2018-05-01 12:08:23 · 200 阅读 · 0 评论 -
RNN_lstm 循环神经网络 - 回归任务
Github:https://github.com/yjfiejd/Tensorflow_leaning/blob/master/tensorflow_20.3_RNN_lstm_regression.py# -*- coding:utf8 -*-# @TIME : 2018/4/30 下午2:35# @Author : Allen# @File : tensorflow_20.3_RNN_...原创 2018-04-30 19:02:35 · 3699 阅读 · 0 评论 -
RNN_lstm 循环神经网络 - 分类任务
Github:https://github.com/yjfiejd/Tensorflow_leaning/blob/master/tensorflow_20_RNN_lstm%20循环神经网络.py# -*- coding:utf8 -*-# @TIME : 2018/4/30 上午11:34# @Author : Allen# @File : RNN_lstm 循环神经网络.py#参考...原创 2018-04-30 14:13:09 · 758 阅读 · 0 评论 -
梯度下降求解逻辑回归
# coding: utf-8# # Logistic Regression# In[2]:#建立一个逻辑回归模型来预测学生是否被大学录取,根据两次考试结果来考虑每个人的申请机会#目前有历史数据,可以用它作为逻辑回归的训练集,对于每一个培训例子# In[3]:#导入常用的库import numpy as npimport pandas as pdimport ma...原创 2018-03-17 23:33:17 · 430 阅读 · 0 评论 -
交易数据异常检测—机器学习实战
GitHub: https://github.com/yjfiejd/transaction_data_Anomaly_Detection (可下载资料)# coding: utf-8# In[2]:import pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport osget_ipython()....原创 2018-03-18 19:12:28 · 2664 阅读 · 0 评论 -
机器学习 - 决策树 【方法二】ID3
【1】目录:机器学习 - 决策树 ID3 算法伪代码机器学习 - 决策树 ID3 算法实现思路机器学习 - 决策树 ID3 算法具体代码伪代码图片 - 《西瓜书》算法实现思路:创建数据样本集合;划分数据集:根据不同的特征,把该特征从整个DataSet中抽出来放在新的List中,后续计算[特征熵]做准备;计算 [经验熵];计算[信息增益] = [经验熵] - [特征熵] 取最大的特征 ---- ...原创 2018-03-23 17:09:16 · 348 阅读 · 0 评论 -
朴素贝叶斯算法 - 文本分类
GitHub: https://github.com/yjfiejd/bayes_text_classification【基本概念】转:贝叶斯基本概念知识参考:#知识背景:转自阮一峰:贝叶斯推断及其互联网应用(一):定理简介转:如何理解贝叶斯:怎样用非数学语言讲解贝叶斯定理(Bayes's theorem)?转:如何理解条件概率:如何理解条件概率转:公式请参考:朴素贝叶斯分类器(Naive Bay...原创 2018-03-30 08:01:40 · 400 阅读 · 0 评论 -
SVM - 基础篇Sklearn
SVM的基本思想训练一个简单SVM模型调节SVM参数:Soft margin问题:调节C参数、伽马γ参数下一次补充SMO算法的学习基本知识补充#【基本知识补充】#random_state参数:https://blog.csdn.net/yangyiwxl/article/details/71641355#numpy.random.RandomState函数用法:https://blog.csd...原创 2018-04-08 00:15:41 · 425 阅读 · 0 评论 -
SVM - 基础知识篇2
今天复习SVM内容两部分,数学推导公式如下(方便自己复习):Soft-Margin Support Vector MachineKernel Logistic RegressionSoft-Margin Support Vector MachineSoft-Margin Support Vector Machine...原创 2018-04-08 17:09:33 · 150 阅读 · 0 评论 -
机器学习 - 决策树 【方法一】
决策树李航《统计学习方法》中定义:决策树(Decision Tree)是一种基本的分类与回归方法,本文主要讨论分类决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。相比朴素贝叶斯分类,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策...原创 2018-03-22 08:15:13 · 277 阅读 · 0 评论 -
Kaggle - House_Price基础篇
Kaggle - House price 数据处理Kaggle: House Prices: Advanced Regression Techniques1,读取数据: 使用pd.read_csv()导入 train_df, test_df数据2,合并数据: label: 使用log1p平滑处理train_df中的label得到[y_train] -> 最后需要用expm1() 变回来提取...原创 2018-04-14 17:56:44 · 1371 阅读 · 0 评论 -
贝叶斯 - 新闻分类
GitHub : https://github.com/yjfiejd/Bayes_News_Classification/tree/master (可下载数据与代码)基础知识储备:导入常用python package导入文章content,导入停用词表使用jieba对content内容分词创建函数去除content中的停用词(注意格式的不同 dataframe, series, list)统计词...原创 2018-04-02 22:30:18 · 1506 阅读 · 3 评论 -
聚类算法_基础篇
为了后续方便复习,目前先记录下聚类算法中背后的数学原理,后期需配合《西瓜书》《统计学习方法》《机器学习实战》食用Blending & bagging主要介绍了blending和bagging的方法,它们都属于aggregation,即将不同的gt合并起来,利用集体的智慧得到更加优化的G(t)。Blending通常分为三种情况:Uniform Blending,Linear Blending...原创 2018-04-10 15:47:20 · 237 阅读 · 0 评论 -
Kaggle - House_Price进阶篇幅
进阶篇:主要是在建模上与基础篇不同,基础篇使用ridge,进阶篇使用Bagging , Adaboosting, XGboostingGithub: https://github.com/yjfiejd/House_price_basic_practice/blob/master/.ipynb_checkpoints/back_up_pycharm-checkpoint.ipynb基本流程:#【1...原创 2018-04-16 13:10:02 · 878 阅读 · 1 评论 -
聚类算法Kmeans - Scikit learn
练习代码放在了github:https://github.com/yjfiejd/K-means_1/tree/master练习:Scikit-learn --- clustering参考:http://scikit-learn.org/stable/modules/clustering.html#clustering# -*- coding:utf8 -*-# @TIME : 2018/4/1...原创 2018-04-11 21:40:57 · 622 阅读 · 0 评论 -
聚类算法- Kmeans and DBSCAN
基础知识:【转载】:深入理解K-Means聚类算法 _ 转自:CSDNyqtaowhu【转载】:第十三篇:K-Means 聚类算法原理分析与代码实现 转自:花名穆晨【转载】:聚类算法——python实现密度聚类(DBSCAN)Github地址:https://github.com/yjfiejd/k-means_2 k-means伪代码:1 创建 k 个点作为起始质心 (随机选择):2 ...原创 2018-04-12 02:12:09 · 1009 阅读 · 0 评论 -
SVM - 基础知识篇
基础知识篇:转:支持向量机(SVM)是什么意思? (挺好玩,又超简单的解释)转:【直观详解】支持向量机SVM转:SVM with polynomial kernel visualization (07年的视频,一针见血)转:机器学习技法 Machine Learning Techniques (看了几遍,感觉很舒畅)下一张图片转自知乎用户:靠靠靠谱数学自己推导篇(方便自己复习使用)SVM线性SVM...原创 2018-04-05 14:30:48 · 509 阅读 · 0 评论 -
聚类算法 - KMeans - 机器学习实战
直接上代码:https://github.com/yjfiejd/k-means_3# -*- coding:utf8 -*-# @TIME : 2018/4/12 下午05:33# @Author : yjfiejd# @File : K-means_3.pyfrom numpy import *import timeimport matplotlib.pyplot as plt...原创 2018-04-13 07:17:21 · 435 阅读 · 0 评论 -
kaggle_02 复习回顾
这是进阶版的notebook。主要是为了比较几种模型框架。所以前面的特征工程部分内容,我也并没有做任何改动,重点都在后面的模型建造sectionStep 1: 检视源数据集In [71]:import numpy as npimport pandas as pd读入数据一般来说源数据的index那一栏没什么用,我们可以用来作为我们pandas dataframe的index。这样之后要是检索起...原创 2018-07-05 09:49:34 · 131 阅读 · 0 评论