自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

嗒獭想睡觉

大数据,人工智能,python学习笔记

  • 博客(27)
  • 收藏
  • 关注

原创 KNN算法详解-原理、实现代码(python3)

以前我总是用函数调库来实现机器学习模型,被男朋友diss了无数次.....现在觉得他说的确实有道理,既然学了算法那肯定原理和代码都得会才算是彻底弄懂了算法,所以这篇文章相当于之前那篇介绍如何调库的文章的进阶!------------目录---------------1 KNN原理2 伪代码3 实现(简化版)4 调用sklearn库实现KNN(源代码浅浅滴解析)1 KNN...

2019-08-05 14:07:03 1783

原创 大话数据结构第九章---排序

马上要把大话数据结构这本书看完啦,现在已经对数据结构有了一种系统上的了解,后面的事情就疯狂练习力扣上的编程题目啦,第九章是本书的最后一章,却是以前我学数据结构最先学的部分-----排序。排序网页搜索之后的排序,商品页面的排序,是如何做到的呢?本章将介绍7种排序算法:冒泡排序,简单选择排序,直接插入排序属于简单算法。快速排序,归并排序(merge sort),希尔排序,堆排序属于...

2019-07-01 15:25:21 247

原创 大话数据结构---8章查找----Binary Search和哈希表

大话数据结构的第八章,查找,说了好大一堆查找的东西,其中每次老师会经常提到的就是二分查找还有哈希表,所以我也只想多多看看这两方面的内容~binary search1.经典二分查找要解决的问题是:是在有序的序列中找到所需的数字。中心思想是:将有序序列(假设为升序排列)中间的数字设为middle数值,左边第一个数字设为left,右边第一个数字设为right,将target与mid...

2018-05-31 21:06:25 588

原创 常见机器学习算法适合使用的业务场景汇总(1)

最近进公司实习培训,大概是get了一下数据挖掘工程师的本职工作是什么:理解业务场景,根据业务抽取特征,建模预测。所以重点还是在于业务的理解与算法在什么场景下是适用的,我将最近的工作做了个总结。汇总了常见的机器学习算法适合使用的业务场景。主要参考了以下的文章,写的很好,我写的内容相当于这两个链接的汇总和一些添加吧:https://zhuanlan.zhihu.com/p/46831267...

2020-01-11 17:09:12 1897

原创 支持向量机的SOM算法实现

终于把支持向量机的原理以及SOM实现代码自己撸了一遍,感觉实在好复杂,辛亏有大佬们的文档作参考:原理公式推导讲的最好的一篇:https://blog.csdn.net/weixin_41090915/article/details/79177267SOM算法详解:https://www.cnblogs.com/jerrylead/archive/2011/03/18/1988419.htm...

2019-08-06 14:02:22 948 1

原创 Python爬虫实现--微博模拟登陆--涉及到的知识点,python包,实现代码详解。

之前写过一篇关于爬虫的文章,其中提到了用python requests包请求网页,并用beautifulsoup解析。https://blog.csdn.net/qq_40589051/article/details/90579064当时那篇文章中的网页都是不需要登陆的,而且由于赶项目所以学的那叫一个囫囵吞枣。请求,协议之类的知识点都没有怎么搞清楚,后来我发现网上的大佬们对于模拟登陆的方法...

2019-08-04 15:47:38 968

原创 大话数据结构--第5-6章学习笔记--串与树

串串这一章,主要是讲的串的匹配(主串里面找子串),暴力匹配的方法是子串在主串中按照顺序一个个的匹配,主串的游标首先是0,再是1.....遇到不匹配的地方就回溯,回到1,子串的游标回到0,然后再继续前面匹配的步骤,这样的方法很简单,但是时间复杂度会非常大。而KMP算法以及其改进的算法,避免了主串游标的回溯,而是只变化子串的位置,降低了时间复杂度,但是KMP步骤真的好难理解啊!书上讲的蛮混乱的...

2019-06-29 15:46:35 159

原创 西瓜书---读书笔记5-6章--神经网络和支持向量机

平时做项目会用到神经网络还有svm~所以写的比较简略,因为论文里面以前就写过蛮多关于这些的,自己比较熟悉(自认为),所以简单复习一下啦~5 神经网络定义:神经网络是具有适应性的简单单元组成的广泛而互联的网络,它的组织可以模拟生物神经系统对真实世界物体所做出的交互反映。历史:神经元模型:m-p神经元模型,1943被提出。感知机:只有输入输出两层,且只在输出层有激活函数...

2019-06-25 16:16:08 223

原创 大话数据结构--第四章学习笔记--栈与队列

大话数据结构真的是一本好书,有这样系统的学习之后感觉自己零散的知识点回忆都被放入了整齐的盒子中。4 栈和队列①栈stack是只允许在尾部(栈顶)进行添加和删除数据元素的线性表(先进后出)。可应用在Word等的撤销操作。操作:进栈(push),出栈(pop)。顺序存储的python代码如下:(用list实现)#栈的顺序实现class stack:def __init...

2019-06-24 20:39:20 184

原创 西瓜书---读书笔记4 决策树

第四章 决策树人类面临决策过程时,就是用树的思维来解决的问题。决策树的目的是产生一个泛化能力强的树。原理:根节点-à子节点(属性,feature)à叶节点(决策结果)每个叶节点的得到都是通过一个决策过程实现的。在三种情况下,根节点或者是子节点会转化成叶节点:没有属性可以划分了,或者是所有样本在属性上取值相同 当前节点下,所有样本属于一个类别了 没有符合当前节点属性的样本...

2019-06-21 15:53:45 247

原创 西瓜书---读书笔记1-3章

学机器学习就一定会看西瓜书~1 绪论机器学习是让计算机自动学习数据中的规律,并对未知数据进行预测的学科。主要研究的是“学习算法”,写程序让计算机自动学习。假设空间:良好的拟合数据的线有很多条,这些线中哪个最好呢?这些线组成的空间叫假设空间。NFL定理:“没有免费的午餐”定理,脱离实际问题,所有的学习算法的误差都一样(已经通过数学公式证明,1996年),因为它的前提是所有问题都...

2019-06-20 20:49:41 203

原创 大话数据结构---读书笔记1-3章

最近开始系统的复习一遍数据结构,发现一本诙谐幽默的好书《大话数据结构》。虽然它是用c实现的,而我习惯用python,但是理解原理还是相当不错的一本书,这里是看书1-3章的读书笔记。分别内容是介绍数据结构的定义,简介算法,介绍了线性表,我还加入了python的程序实现单链表。1 绪论程序设计 = 数据结构+算法 数据 数据对象 数据...

2019-06-20 16:37:31 273

原创 机器学习--scikit-learn(5)--学习曲线、验证曲线、交叉验证曲线

scikit-learn中有非常多的曲线,对于调参非常有用处,我经常用到的曲线是学习曲线,验证曲线以及交叉验证曲线。使用这些曲线的代码格式非常固定:返回值 = 曲线名字(模型对象,X, Y, 交叉验证数量,评分标准.....)它们只是返回值不同以及其中设置的参数略有不同。学习曲线:(learning curve)这条曲线的主要作用是观察数据集的大小对于模型性能的影响。使用代...

2019-05-29 17:13:10 2027

原创 python之多线程

学习了一下多线程用到爬虫里面简直爽歪歪呀~---------------目录-----------------1 多线程定义2 添加线程3 一些可能会用到的地方4 锁1 多线程定义定义就很简单,为了实现高并发,能够同时在一个脚本下运行多个程序,节约时间~2 添加线程添加线程用到的代码:import threading as tddef sum(...

2019-05-27 14:44:37 107

原创 python-requests+beautifulSoup实现文本和图片爬取网页爬虫

上周老师开会,突然就去承包了个商业项目,让我负责提供数据。所以最近任务就是---写爬虫已经很久没有碰过爬虫了,这几天按照甲方的要求弄了一下下~发现不涉及到登陆的爬虫做起来还是比较简单滴,特此记录一下下。关于要登陆的网站,比如微博,人人网之类的爬虫,涉及到模拟登陆之类的知识点的详情请见我的另一篇文章啦~https://blog.csdn.net/qq_40589051/article...

2019-05-26 20:21:16 3333 4

原创 条件概率、贝叶斯、最大似然

在一次找工作实习的经历中,老板问我会不会朴素贝叶斯原理还有最大似然估计,辛亏根据老板提示早准备了....不然还真说不上来。虽然最后实习因为一个很玄幻原因黄掉了.....但是就因为回答上了朴素贝叶斯和最大似然的原理,老板当时还是通过了我的面试滴 ,还马上要和我签合同。所以感觉这些概率论上的数学原理还是非常重要的,最近有好好的准备一下下,在此做个小小的记录。-------------------吐...

2019-05-24 21:30:28 776

原创 python文本分析之jieba分词工具

一年前老师给了我一个文本数据分析的项目,所以稍微了解了一下中文文本分析的非常浅显的知识,在此做一下记录。因为自然语言处理这一块我只是为了完成项目而做了一些了解,所以肯定有不太对的地方,谅解一下啦~、---------------------一个假的目录----------------------自己对于文本分析的理解文本分析的流程jieba分词工具涉及到的算法原理简介(自己的...

2019-05-24 16:45:37 4844 5

原创 python数据分析之pandas

pandas是数据科学分析中与numpy一样非常重要的一个工具,它是numpy的升级版本,用起来感觉更复杂,但是能完成的功能是非常多的,有点类似于python的字典。上次我们简介了numpy,今天来介绍一下pandas库。目录:创建pandas数据类型计算与排序操作选择所需数据更改添加数据处理空数值数据的导入与导出合并操作1创建pandas数据类型panda...

2019-05-21 19:23:19 372

原创 利用sklearn实现KNN--乳腺癌诊断代码实战与分析

这篇文章是利用sklearn实现KNN算法,如何调整参数,实战代码。如果要看具体原理和python代码实现简单的KNN转这里:https://blog.csdn.net/qq_40589051/article/details/98482987---------目录----------1. sklearn.neighbors.KNeighborsClassifier参数介绍2. 利用...

2018-08-30 15:51:33 3239

原创 数据可视化工具--matplotlib的使用

今天简要学习matplotlib库对数据进行可视化的简单操作。今天要完成三个目标:画散点图,柱状图,多图合并。1.matplotlib的基本操作import matplotlib.pyplot as pltimport numpy as np#基本用法x = np.linspace(-1,1,50)y1 = 2*x + 1plt.plot(x,y1)pl...

2018-08-30 15:05:46 349

原创 机器学习--模型(2)--SVM支持向量机

上一篇文章记录的是学习逻辑回归的心得体会。下面就该讲svm(支持向量机)啦,虽然据某个老师给我讲的是svm现在基本上公司里面不怎么用了,但是我最近的项目论文中需要这个模型,所以还是简单了解一下其原理。1.svm原理点进官网,里面是这样介绍的支持向量机。http://sklearn.apachecn.org/cn/0.19.0/modules/svm.html#svm而这个答者的...

2018-08-29 11:16:42 370

原创 逻辑回归模型的实现---原理、公式、调用sklearn库实现详解

机器学习中有非常多的模型,那么模型的原理是什么?参数怎么使用?模型如何选择?这是困扰我比较久的问题,借最近学习sklearn顺便学一学我最近项目里面需要的模型。----------目录--------------1. 如何选择合适的模型?2. 公式与原理3. 调用sklearn库实现逻辑回归代码详解1. 如何选择合适的模型?在sklearn官网上有这样一幅图,标明了数...

2018-08-29 10:27:12 917

原创 机器学习--scikit-learn(4)---过拟合与模型保存

此文章要讲的是如何判断模型是否过拟合,如何修正它,以及修正好的模型,如何保存,以便留到下次使用。首先要先搞清楚一个概念,什么是过拟合?1,过拟合,欠拟合概念过拟合,按照我自己的理解就是,学习得太猛了,太细枝末节了,导致自己不会举一反三,平时做题做的都是一类,练习的时候都是满分,等到考试的时候题目条件稍微一变化,就不会做了。欠拟合,就是学的太水了,平时练习题都没最好,考试当然死得惨。...

2018-08-28 10:57:23 382

原创 机器学习--scikit-learn(3)--交叉验证

这篇文章记录的是如何对模型进行交叉验证。首先要简单了解一下,什么是交叉验证,对一个模型好与坏的检测指标有哪些?1.什么是交叉验证?交叉验证就是不单单把数据集分成测试集和训练集,而是把数据集分成n组,每一组中都有训练集和测试集,每一组都会得到一个score,这个score可以是准确性(accuracy),也可以是MSE(标准均方误差)等。例子回到第一篇文章中讲到的花的分类,最简单的是...

2018-08-27 16:42:04 629

原创 机器学习--scikit-learn库(2)

上一节讲的是scikit-learn库的最简单的用法。现在要更加进阶啦~头一节的第三个问题是如何使用scikit-learn的官网,其实我现在也不太清楚,还是跟着练习的时候到需要查看官方文档的时候自己慢慢摸索吧。这篇笔记要记录的是,库里面的datasets到底有哪些?以及模型的参数如何查看的问题,还有归一化数据的问题。首先我想去看看scikit-learn中到底有多少自带的数据库。...

2018-08-27 15:42:54 1081

原创 机器学习--scikit-learn库(1)

用python来实现机器学习是很简单滴~这是我看了莫烦python中的scikit—learn库之后的一些自己的理解。不过我还是有一些问题的:1.scikit-learn库是什么?2.这个库怎么用?3.scikit-learn库的官网的文档到底怎么查啊怎么使用啊?这都将在scikit-learn学习笔记中写下。1.scikit-learn库是什么这里是官网:scik...

2018-08-27 11:09:31 506

原创 python数据分析之Numpy

Numpy,全称Numeric Python,是一个开源的Python科学计算库,C语言编写,所以运算速度非常快,加上对矩阵的操作非常方便,所以数据分析中一般不用python的数据类型list与dictionary。numpy也是pandas的基础,所以非常有必要了解一下啦~教学视频推荐:莫烦python教学,虽然up主日常翻车,但是长的可爱~2333333一个假的目录:numpy数据...

2018-06-04 23:20:42 393

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除