自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

妖白的奇幻漂流世界

世界这么大,我要学python

  • 博客(108)
  • 资源 (1)
  • 收藏
  • 关注

原创 数据挖掘笔记1

1 datetime.strptime函数用法 ----字符串转日期格式使用格式为datetime.strptime(date_string, format),其中date_string 就是要转成日期的字符串,format 根据date_string 不同而不同.最常见(dates, '%Y-%m-%d %H') 年月日时 格式应该与dates一样。2 pd.read_csv(data_file...

2018-06-14 08:46:05 197

转载 机器学习应届面试会问到的面试问题汇总

转载:https://blog.csdn.net/q383700092/article/details/586057151监督与非监督区别2L1L2区别3生成模型和判别模型区别 像贝叶斯lda 等就是生成模型计算过概率分布之类的1svm算法的原理如何组织训练数据如何调节惩罚因子如何防止过拟合svm的泛化能力增量学习2神经网络参数相关比如参数的范围如何防止过拟合隐藏层点的个数多了怎样少了怎样什么情况...

2018-06-04 15:36:28 1878

转载 向量转置怎么求导(多元线性回归原理推导用)

 转自:http://www.mathchina.net/dvbbs/dispbbs.asp?boardid=4&Id=1732

2018-05-28 16:22:49 14621

转载 PCA主成分分析(原理+例子)

转载请声明出处http://blog.csdn.net/zhongkejingwang/article/details/42264479 什么是PCA?  在数据挖掘或者图像处理等领域经常会用到主成分分析,这样做的好处是使要分析的数据的维度降低了,但是数据的主要信息还能保留下来,并且,这些变换后的维两两不相关!至于为什么?那就接着往下看。在本文中,将会很详细的解答这些问题:PCA、SVD、特征值、...

2018-05-24 15:42:08 25660

原创 ppython3 关于agg函数的用法(一般与groupby函数连用)

为了了解agg这个函数 我们先以下数据集作为研究对象 (截图的一部分)agg:这里一般都与groupby函数作为比较 pandas引入了agg函数,它提供基于列的聚合操作。而groupby可以看做是基于行,或者说index的聚合操作通过这里介绍我们可以交接 groupby函数是基于行操作的 而agg是基于列操作的这个说可能太抽象,什么是行操作 什么是列操作呢最简单的理解就是 基于行操作 我可以进行...

2018-05-15 15:34:31 54909 1

原创 python进行数据处理过程中怎么对单列进行操作(python3中get_dummies函数为例)

我们以下面数据为例上图为我们的数据 我们可以发现 如果我们对  behavior_type 这一列单独操作,这里我们想把他弄成热编码的形式会对我们以后的操作更好一点 即 1 2 3 4 对应 1000 0100 0010 0001 但是这一列在数据中我们怎么单独操作呢 这里我们用到了join函数 即 我先单独分析 behavior_type 这一列然后 没进行操作的列我们在拼接上 相当于想拆...

2018-05-14 17:15:15 4302

原创 python3中的drop_duplicates函数(对数据进行去重处理)

我们知道这个函数是去重处理函数 ,单列进行处理比较好理解但是如果多列进行处理具体啥意思呢?用上述数据表示:简单理解 如果df_part_1.drop_duplicates(['user_id','behavior_type'], 'last')这句话的意思就是 这两列元素一样的话 就相当于重复(只看这两类 其他列重复不重复没有一点关系)  重复了我们就要去重,对吧。那么既然重复这么多 我们最后还是...

2018-05-14 16:54:02 30958 1

原创 python3关于groupby函数最简单的介绍和理解

首先我们先来看下网上最经典的解释即对不同列进行在分类,标准是 先拆分 在组合(如果有操作比如sum则可以进行操作)什么意思呢 。就是我们读取文件不是有很多列吗,如果我按列就行分类,那么先把选取列一样的挑出来然后在进行操作。具体的看下下面一个例子这里我们的列名省略了 其实是df_part_1.columns = ['user_id','item_id','behavior_type','item_c...

2018-05-14 16:42:36 9136

原创 python3中关于选定一天的日期和选定一段时间的日期操作

在所有的日期中找某天的数据我们先看这个数据我们想要取众多日期的一天 那么简单的借用一下pd.read_csv中的参数就可以了重点我们要了解一下这几个参数:                            parse_dates = ['time3'],                            index_col = ['time3']parse_dates :把选取的这一列解析...

2018-05-14 16:11:11 3794

转载 深入浅出 卡尔曼滤波

最通俗理解的方法 无公式选自知乎大神 https://www.zhihu.com/question/23971601假设你有两个传感器,测的是同一个信号。可是它们每次的读数都不太一样,怎么办?取平均。再假设你知道其中贵的那个传感器应该准一些,便宜的那个应该差一些。那有比取平均更好的办法吗?加权平均。怎么加权?假设两个传感器的误差都符合正态分布,假设你知道这两个正态分布的方差,用这两个方差值,(此处...

2018-05-11 14:54:12 1550

转载 怎么用python提取数据中的特征(特征工程都包括哪些部分)

文章载:http://www.cnblogs.com/jasonfreak/p/5448385.html目录1 特征工程是什么?2 数据预处理  2.1 无量纲化    2.1.1 标准化    2.1.2 区间缩放法    2.1.3 标准化与归一化的区别  2.2 对定量特征二值化  2.3 对定性特征哑编码  2.4 缺失值计算  2.5 数据变换  2.6 回顾3 特征选择  3.1 Fi...

2018-05-06 11:09:53 21186 1

原创 python3怎么筛选excel中特定的行(行中的值满足某个条件/行中的值属于某个集合)

做数据分析的时候通常我们并不是对真个excel文件进行操作,换言之,每一列都是一个特征,我们需要针对分析。遇到这类问题的时候,我们通常想得到一列中所有符合条件的数据,挑出来,然后组成一个单独的文件进行分析。比如一列中我们希望找到所有大于100的所有行,又比如 我们希望得到一列中包含某个特定字母的所有行,那么我们应该怎么办呢,这里就说一下。   在这之前我们先介绍一个pandas里面一个函数 loc...

2018-05-04 16:03:25 51574 10

转载 深入浅出的 Adaboost算法

转自知乎 :https://zhuanlan.zhihu.com/p/32960452 通俗易懂 https://zhuanlan.zhihu.com/p/30676249 数学解释 https://zhuanlan.zhihu.com/p/23987221 一些参数理解通过前面的学习和讲解,我们知道了AdaBoost是一种ensem...

2018-05-03 15:41:40 6285 1

转载 从一元高斯分布到多元高斯分布(含例子,python代码)

为了简化下面的高斯分布都是按照零均值写的一元高斯的标准形式: 多元高斯的标准形式: 下面推导为什么一般的多元高斯具有形式: 核心观点:所有的非奇异的多元高斯分布都是以多元标准高斯分布为基础,通过非奇异矩阵 进行坐标变换而来的假设对于一般的多元高斯分布 有 那么因此 这样应该就可以理解公式里面为什么会有协方差矩阵了代码示例import numpy as npimport matplotlib....

2018-04-26 16:24:38 16136

转载 什么是梯度下降法以及梯度下降法相关知识

https://blog.csdn.net/walilk/article/details/50978864引言 机器学习栏目记录我在学习Machine Learning过程的一些心得笔记,涵盖线性回归、逻辑回归、Softmax回归、神经网络和SVM等等,主要学习资料来自网上的免费课程和一些经典书籍,免费课程例如Standford Andrew Ng老师在Coursera的教程以及UFLDL Tut...

2018-04-23 15:52:31 1553

原创 矩阵的 正定与半正定

先不慌,我们要搞清楚正定与半正定先熟悉几个基本的概念一:矩阵的基最简单的理解就是:线性变换就是线性映射,矩阵只不过是线性映射的系数而已。所以,选定基底实际是选定坐标轴(不一定正交)。我们平时不太关心坐标轴,是因为所有地方都用同一个坐标系x-y-z。很多时候,合适的坐标系会简化问题。这就像描述一个物体的运动,你需要选取参考系,参考系不同,描述方式也不同。在不同的基下,同一个线性变换就有不同的矩阵表示...

2018-04-20 10:25:17 22237 2

原创 机器学习中数据训练集,测试集划分与交叉验证的联系与区别(含程序)

因为一个模型仅仅重复了刚刚训练过的样本的标签,这种情况下得分会很高,但是遇到没有训练过的样本就无法预测了。这种情况叫做过拟合。为了避免过拟合,一个常见的做法就是在进行一个(有监督的)机器学习实验时,保留一部分样本作为测试集(X_test, y_test)。为了提高训练数据的泛化能力,我们把训练集和测试集对半划分,即:X_test:y_test=1:1,test_size=0.5。但是仅仅如此,再训...

2018-04-17 10:29:09 9431 1

转载 关于向量的期望值、均值向量和协方差矩阵

转载:https://blog.csdn.net/dbj2009/article/details/48949871 向量随机变量X的数学期望也是一个向量,其各分量是原X的各个分量的数学期望。如果f(x)是d维随机变量X的n维向量函数                                                                                    ...

2018-04-11 17:36:22 26524

转载 似然函数,最大似然估计 简单理解

似然函数、最大似然估计简单理解 摘抄自维基百科:https://zh.wikipedia.org/wiki/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0https://zh.wikipedia.org/wiki/%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1 似然函

2018-04-11 08:36:42 2099

转载 关于深度学习图像处理项目及其代码

转载:https://blog.csdn.net/c2a2o2/article/details/77701181收集了大量深度学习项目图像处理领域的代码链接。包括图像识别,图像生成,看图说话等等方向的代码,所有代码均按照所属技术领域建立索引,以便大家查阅使用。2.1 图像生成 2.1.1 绘画风格到图片的转换:Neural Style 2.1.2 图像类比转换:image-analogies 2....

2018-04-09 14:46:43 5702

转载 深入浅出的马尔科夫入门文章

http://blog.csdn.net/pipisorry/article/details/46618991生成模式(Generating Patterns)1、确定性模式(Deterministic Patterns):确定性系统  考虑一套交通信号灯,灯的颜色变化序列依次是红色-红色/黄色-绿色-黄色-红色。这个序列可以作为一个状态机器,交通信号灯的不同状态都紧跟着上一个状态。      注...

2018-03-17 09:03:32 2962 1

转载 opencv中什么事ROI。ROI有什么作用

ROI(region of interest),也就是感兴趣区域,如果你设置了图像了ROI,那么在使用OpenCV的函数的时候,会只对ROI区域操作,其他区域忽略。举个例子:原图:现在要将这幅图的蓝色通道加150如果没有设置ROI,则函数作用在这个图像上,整个图像的所有像素的蓝色通道都会被加上150但是现在我设置了ROI,Rect  ROI(0,100,width/2,height/2);则函数只...

2018-03-16 21:02:19 5186 1

转载 opencv中关于行列通道还有通道数的元组的理解

整理一下OpenCV中文论坛里关于图像通道的问题,如下: (1)图像的通道指的是什么?是不是灰度图的通道数为1,彩色图的通道为3?(zhuker)正确! 基本上,描述一个像素点,如果是灰度,那么只需要一个数值来描述它,就是单通道。 如果一个像素点,有RGB三种颜色来描述它,就是三通道。(ollydbg23)(2)对于2通道和4通道如何看待?哪位帮忙解释一下?(feixue)我见过四通道的,两通道暂...

2018-03-16 20:46:14 730

转载 手把手教你写专利申请书·如何申请专利

原文地址 :手把手教你写专利申请书·如何申请专利摘要小前言(一)申请前的准备工作    1、申请前查询    2、其他方面的考虑    3、申请文件准备(二)填写专利申请系列文档    1、实际操作步骤    2、具体操作    3、经验分享、注意事项(三)关于费用(四)其他的话参考资源提示常见问题的问与答摘要:    如何写好专利申请?由于很多专利申请人都是第一次申请,因此,可能有一种神秘和些许

2018-01-02 15:21:20 1703

原创 python3 关于字符串的内容(split join strip replace lower upper caitalize 函数用法)

字符串 是python 的基本数据类型。    对字符串最好的理解就是 他通常指 人类可以阅读的文本 更广泛的说 他是一个字符序列 ,并且字符只有在组成这个序列时才有意义。

2017-12-25 17:04:32 948

原创 python3中单引号,双引号,三个单引号 ,三个双引号的差别,以及反斜杠的用法

python3进行输出的时候 我们经常会遇到很多引号的问题,有时候引号不一样显示的内容也会不一样,严重的时候还有可能会报错,那么我们如果区别这些众多的引号的问题呢,这里做了一下总结这里先介绍下 反斜杠反斜杠用法在字符串大多数只有两个用法 ①转移符  如'i  \'m a student ' ②换行符  如print(‘aaaaaaaaa\aaaaaaaaaaaaaa

2017-12-19 15:54:14 14806

原创 关于机器学习中的损失函数。到底什么是损失函数。

说到机器学习,初学者听到最多的就是 损失函数了吧 我对这个词也是一头雾水 好像今天一个定义明天又是一个定义 ,读了大量的文章和博客 终于有点起色 (感谢论坛各位大佬)这里用自己的简单语言大致说下什么是损失函数 如果一个地方看不懂就换个博客看 总会有适合你的文章 万一这篇就是了呢首先我们需要了解损失函数的定义是什么:衡量模型模型预测的好坏可能这么说有点小小的抽象 ,那么在解释

2017-12-13 10:50:46 42648 24

原创 requests.get为什么得到的内容和查看源文件不一样?

由于初学爬虫 尝试着在beausoup库和re正则间来回爬去加强对两种方法的理解 但是利用正则的时候出现了一个这么个问题源文件打开 找到的元素 在requests.get竟然没有 虽然很简单的一个问题 但是困扰了我半个多小时 这里吧一些经验总结下来 避免少走弯路拿最简单的静态 贴吧为例我们打开url:         http://tieba.baidu.com/i/i/fan

2017-12-01 10:20:29 33081 20

原创 python3 爬虫面对如此多重复的标签,应该怎么爬才能爬到自己需要的信息

我们知道 利用BeautifulSoup解析网页可以根据树以及各个标签来爬去 ,但是有个问题我们不能忽略,比如1    BeautifulSoup只要目标信息的旁边或者附近有标签就可以调用 ,,不用管是几层标签(父辈 后代辈 的都可以)。Soup.html.body.h1Soup.body.h1Soup.html.h1Soup.h1

2017-11-09 11:10:02 35182 5

原创 python3 BS4 BeautifulSoup 解析的一些解析(迷惑点)

1    BeautifulSoup只要目标信息的旁边或者附近有标签就可以调用 ,,不用管是几层标签(父辈 后代辈 的都可以)。Soup.html.body.h1Soup.body.h1Soup.html.h1Soup.h1索引的效果都是同一个内容。但是应该把重要的标签包含进去,以免过于简单爬到不想要的内容。2  在这里的li

2017-11-08 15:38:14 7625 1

转载 pandas中字符串和日期的相互转换

原文地址:http://blog.csdn.net/luoganttcc/article/details/77585038?locationNum=8&fps=1将数字转化成时间格式from dateutil.parser import parsea=20170825b=str(a)c=parse(b)12345print(c)2017-08-25 0

2017-11-08 09:49:12 4015

原创 python3中format函数

format是python2.6新增的一个格式化字符串的方法,相对于老版的%格式方法,它有很多优点。%能实现的format都能实现 并且功能更多,操作更方便 。优势:1.不需要理会数据类型的问题,在%方法中%s只能替代字符串类型2.单个参数可以多次输出,参数顺序可以不相同3.填充方式十分灵活,对齐方式十分强大4.官方推荐用的方式,%方式将会在后面的版本被

2017-11-03 15:25:01 4814

原创 python 中re库(正则表达式)的一些困惑解疑

正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。疑惑1:首先要明确re库中的普通字符,特殊字符(元字符)以及打印字符。1普通字符一般为所有的大写和小写字母字符,所有数字,所有标点符号以及一些符号。非打印字符:主要包括一些换行符,换页符,空白

2017-11-03 09:25:15 363

转载 python3中的 eval函数

http://blog.csdn.net/zhanh1218/article/details/37562167 原文 eval()函数十分强大,官方demo解释为:将字符串str当成有效的表达式来求值并返回计算结果。so,结合math当成一个计算器很好用。可以把list,tuple,dict和string相互转化a =

2017-11-02 11:04:50 17688

转载 python3中的map函数详解

转载http://www.cnblogs.com/superxuezhazha/p/5714970.htmlmap()函数map()是 Python 内置的高阶函数,它接收一个函数 f 和一个 list,并通过把函数 f 依次作用在 list 的每个元素上,得到一个新的 list 并返回。例如,对于list [1, 2, 3, 4, 5, 6, 7, 8, 9]如果

2017-10-30 19:24:29 11795 4

转载 pandas中字符串和日期的相互转换

原文地址:http://blog.csdn.net/luoganttcc/article/details/77585038?locationNum=8&fps=1将数字转化成时间格式from dateutil.parser import parsea=20170825b=str(a)c=parse(b)12345print(c)2017-08-25 0

2017-10-25 20:59:00 15659 1

转载 python3中的groupby函数用法

原文地址:http://www.cnblogs.com/zhangzhangwhu/p/7219651.html前言Python的pandas包提供的数据聚合与分组运算功能很强大,也很灵活。《Python for Data Analysis》这本书第9章详细的介绍了这方面的用法,但是有些细节不常用就容易忘记,遂打算把书中这部分内容总结在博客里,以便复习查看。根据书中的章

2017-10-25 10:29:43 120306 2

原创 Python3 lambda函数的深入浅出

我们常常看到一个这样的表达式 A=lambda x:x+1可能会一头雾水不知道怎么计算 最基本的理解就是def A(x):return x+1但是理解程序不会将一个表达式在转为函数的,因为lambda函数设计出来就是简化def的。其实很简单 我们可以这样分析通过冒号就能知道这句话什么意思冒号左边→想要传递的参数冒号右边→想要得到的数(可能带表达式)这样在

2017-10-25 10:01:38 15317

转载 Pandas的 loc iloc ix 区别

原文地址 http://blog.csdn.net/roamer314/article/details/52179191import pandas as pd    data = [[1,2,3],[4,5,6]]    index = [0,1]    columns=['a','b','c']    df = pd.DataFrame(data=data, 

2017-10-25 08:51:58 427

转载 python3 counter函数的用法

http://blog.csdn.net/u013628152/article/details/43198605counter作用就是在一个数组内,遍历所有元素,将元素出现的次数记下来一:定义一个list数组,求数组中每个元素出现的次数如果用java来实现,是一个比较复杂的,需要遍历数组list。但是python很简单:看代码

2017-10-24 20:23:52 27777 1

python3爬取贴吧图片(翻页+模拟浏览器)

利用python3 爬取贴吧图片 并且实现翻页功能 模拟浏览器 通过bs4,requests库和正则表达式 爬取图片并现在到本地硬盘中 爬虫第一课

2017-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除