- 博客(15)
- 资源 (1)
- 收藏
- 关注
原创 神经网络的传播原理——看不懂你来打我
神经网络的传播原理本文介绍的是指深度神经网络 DNN 和 BP算法。读 N 遍,推导一遍,用代码实现一遍 。还不懂,再来打我。前不久换了一份工作,使得我能够真正的在工作中使用到机器学习中的神经网络。在此之前自学机器学习其他算法时也曾经去看过有关神经网络的文章,当时看完是一脸懵逼,不知所云,后来不了了之。幸运的去年参加了考研(虽然没有考上),复习了数学三的知识点,对我理解机器学习算法有很大的帮助。之所以写这篇文章主要是为了记下自己对于神经网络理解的思路,并分享给有需要的人。首先说一下,要看懂神经网
2020-12-05 23:46:13 716
原创 数据挖掘之特征工程(笔记)
特征工程在介绍特征工程之前,我们先看两张图。图一是基本的数据挖掘场景图二是特征工程的常见方法和步骤 特征工程(Feature Engineering)是数据挖掘模型开发中最耗时、最重要的一步。这里简单介绍笔者在模型开发中所总结的一些方法。特征也就是我们常常说的变量/自变量,一般分为三类:连续型无序类别(离散)型有序类别(离散)型特征工程(Feature E...
2018-02-28 11:02:00 4539
转载 Jupyter Notebook的快捷键
转载自此处:http://blog.csdn.net/ahora_wzy/article/details/51282098Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。命令模式 (按键 Esc 开启)Enter : 转入编辑模式Shift-Enter : 运
2018-01-24 09:47:14 394
原创 数据分析之——微信好友分析
itchat中午吃午饭的时候,无意间浏览到某公众号的一篇文章,是关于爬微信好友的。自从爬虫工程师转数据分析师以来,很久没玩过爬虫了,于是乎玩心一起,吃完饭之后自己便尝试起来。itchat 包,已经完成了wechat的个人账户API接口,使得获取个人微信信息更加方便。纯属好玩!!!itchat包的API列表安装 itchat在命令终端输入:pip install itchat登录导入包之后,调用log
2018-01-13 17:53:52 7803 2
原创 kaggle竞赛流程简介——以手写识别为例
下载数据集https://www.kaggle.com/c/digit-recognizer/data 数据包含三个csv文档。训练集 train.csv、测试集 test.csv、结果提交模版 sample_submission.csv。数据说明数据文件train.csv和test.csv包含的手绘位灰度图像,从0到9。每一行代表一个数字,不同的是train.csv中包含标签列...
2017-12-26 16:23:25 3593 1
原创 在Hadoop分布式集群中安装hive
依赖环境 hadoop分布式集群环境为上一篇中搭建好的集群环境: 一台master主机名:ubuntu-01,两台slave节点,分别是 ubuntu-01-node1、ubuntu-01-node2 与hadoop一样,先在ubuntu-01上安装,然后将文件复制到其他节点中。 安装hive之前先启动集群,三台都要启动 提前下载好文件:apache-hive-2.3.2
2017-12-22 11:23:54 5929 2
原创 Hadoop完全分布式集群环境搭建及测试
准备工作 三台虚拟机,其中:一台主机,两台节点。 需要提前下载好的文件: linuxmint-18.3-cinnamon-64bit.iso jdk-9.0.1_linux-x64_bin.tar hadoop-2.9.0.tar.gzlinux虚拟机安装操作流程第一步: 装机点击 vmware workstation 左上角 文件 → 新建虚拟机 然后一路点击 下一步
2017-12-21 10:13:36 4103
原创 Python数据挖掘——决策树
sklearn中DecisionTree学习笔记参考博文:scikit-learn决策树算法类库使用小结sklearn中的决策树算法包含 DecissionTreeClassifier 和 DecissionTreeRegression ,二者的的用法基本相同。 不同的是: 回归决策树里面的Y值可以是浮点数;criterrion 参数值不同。sklearn.tree.DecisionTreeCla
2017-12-07 10:19:07 3310
原创 Python关联分析之——Apriori算法
使用Apriori算法进行关联分析Apriori原理 如果某个项集是频繁的,那么它的所有子集也是频繁的。即如果{0,1}是频繁的,则{0},{1}也是频繁的。这个原理直观上并没有什么帮助,但如果反过来看,就有用了。 如果某个项集是非频繁的,那么它的所有超集也是非频繁的。即如果{0}也是非频繁的,则包含{0}的所有超集如{0,1}也是非频繁的。重要定义# 测试项集: [['豆奶',
2017-12-01 09:18:19 15727
原创 数据清洗(二)——缺失值处理
使用sklearn.preprocessing.Imputer类来填补缺失值本篇旨在记录 Imputer类的简单用法,不列举所有使用方法,知道怎么用Imputer类来填补缺失值就可以了。以数据集本身为基础填补缺失值import numpy as npfrom sklearn.preprocessing import Imputerx = np.array([[2, 2, 5, 4, 4,np.na
2017-11-16 11:28:04 2705
原创 Python机器学习之验证码识别
Python分类模型之验证码识别下载验证码图像处理二值化原始图声明图像类切割图片标注图片生成训练集矩阵csv文件验证训练集训练模型识别并计算验证码尾注Python分类模型之验证码识别下载验证码首先,我们从目标网站下载足够多数量的验证码,以用来制作训练集,并通过训练集生成模型。这里以深圳信用网为例,下载500张验证码。def download_image(): """do
2017-10-11 10:53:40 5891 6
原创 KNN算法(一)
knn的基本原理本篇主要概述作者在经过实战经验之后,对KNN算法思路的一些理解。knn的工作原理?knn的数学原理knn的工作原理KNN,英文全称为K-nearst neighbor,中文名称为K近邻算法。knn算法属于监督学习算法,主要用于分类。它的工作原理是:存在一个样本数据集合,也称作训练集,并且训练集中的每个样本都存在标签。当输入一个未知标签的新数据时,将新数据的每个特征与训练集中的数
2017-09-13 21:00:02 601
原创 属于自己的Python爬虫思路
Python爬虫思路明确需求网络请求提取结构化数据数据存储后语Python爬虫思路楼主是属于非科班出生的半路编程杀手,这篇文章旨在记录个人在爬虫方面的心得,文字较多,代码较少,不足之处,请多多指教。不多BB,让我们进入正题:明确需求搜索引擎定向爬虫网络请求提取结构化数据数据存储明确需求明确需求的意思是你需要知道你的爬虫要做的事,楼主所接触到的分为两种:搜索引擎搜索引擎,故名思
2017-09-12 20:35:38 2356
转载 欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2017-09-05 11:41:12 310
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人