自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Python技术博文

分享有关Python知识,比如做数据分析、量化分析以及爬虫等等.关注机器学习、自然语言处理和人工智能,了解IT界最新技术,让我们一起从菜鸟变成大牛吧!

  • 博客(99)
  • 收藏
  • 关注

原创 TensorFlow的基本使用

TensorFlow 的特点:使用图 (graph) 来表示计算任务.在被称之为会话 (Session)的上下文 (context) 中执行图.使用 tensor 表...

2019-11-19 11:40:00 311

原创 Python导包/模块的正确姿势

什么是模块?什么是包? 通常模块(model)为一个文件,可以作为module的文件类型有 ".py"、 ".pyo"、 ".pyc"、 ".pyd"、 ".s...

2019-11-14 12:00:59 619

原创 数据分析之缺失值处理(下)

缺失值处理1)删除删除法是指将缺失值所在的观测行删除(前提是缺失行的比例非常低,如5%以内);或者删除缺失值所对应的变量(前提是该变量中包含的缺失值比例非常高,如70%左右);2)替换直接利用缺失变量的均值、中位数或众数替换该变量中的缺失值;其好处是缺失值的处理速度快;弊端是易产生有偏估计,导致缺失值替换的准确性下降;3)插补利用有监督的机器学习方法(如回归模型、树模型、网络模型等)对缺失值作...

2019-11-12 08:50:00 735

原创 数据分析之缺失值处理

数据质量分析数据质量分析是数据预处理的前提,没有可信的数据,数据挖掘构建的模型将是空中楼阁。数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般指不符合要求,以及不能直接进行相应分析的数据。包括:1)缺失值2)异常值3)不一致的值4)重复数据及含有特殊符号(如#,¥,*等)的数据。本文只介绍缺失值处理:缺失值处理1)删除删除法是指将缺失值所在的观测行删除(前提是缺失行的比例非常低,如...

2019-11-11 17:24:42 1383

原创 数据分析+分类模型预测乳腺癌患病概率

一、前言 本文利用python预处理数据集,再通过机器学习模型:LR、SGD预测乳腺癌患病概率,对比两个模型的预测效果,选择最优的预测方式。二、数据集说明 数据集源于威斯康星州临床科学中心。每个记录代表一个乳腺癌的随访数据样本。#导入pandas与numpy工具包。 import pandas as pd importnumpyasnp # 创建特征列表;10个特征,cla...

2019-11-09 13:57:45 5525

原创 Pandas做股票预测

数据集来源于yahoo财经股票数据。下载方式:import pandas_datareader.data as web## 使用 pandas-datareader 来读取股票数据start = datetime.datetime(2010, 1, 1)end = datetime.datetime(2017,12,31)prices = web.DataReader('002578.SZ', '...

2019-11-08 09:00:00 2855

原创 Pandas透视表看火箭队James_Harden赛季数据

本文数据及参考来源:https://zhuanlan.zhihu.com/p/31952948 pandas中pivot_table作用: 长表转宽表,数...

2019-11-07 17:30:00 660

转载 Python成为全球最受欢迎的语言,已超越Java

PYPL (PopularitY of Programming Language,编程语言流行指数)10月份数据已经发布。在全球范围内,Python是最...

2019-11-07 17:30:00 711

转载 最热门技术岗位洗牌,机器学习不再高居榜首

Hired发布了《2019年度薪资报告》,数据揭示了全球技术工人的工资趋势。机器学习和数据科学曾一度成为最受追捧的职位,而如今,这两个岗位虽仍在Top 5...

2019-11-07 17:30:00 209

原创 数据的分箱处理

前言 数据分箱处理, 即把一段连续的值切分成若干段,每一段的值看成一个分类。通常把连续值转换成离散值的过程,我们称之为分箱处理。例如,对于班级语文成绩进行分箱:60分以下分类为不及格,60~70分之间分类为良,70~85分之间分类为好,85~100分之间分类为优秀。该过程中,我们把连续的成绩分成了四个类别,“不及格”,“良”,“好”和“优秀”就是各个类别的名称,或者叫做标签。数...

2019-11-05 12:00:00 10965 1

转载 50W+Python开发者的选择,这个总结必须收藏

DataFrame是一种数据框结构,相当于是一个矩阵形式。一、创建(pd.DataFrame)二、怎么查看数据属性以及一些常用的方法三、axis(轴使用的说明)、增加删除...

2019-11-04 09:00:00 131

转载 apply和transform方法的性能比较

首先讲一下apply() 与transform()的相同点与不同点:相同点:都能针对dataframe完成特征的计算,并且常常与groupby()方法一起使用。不同点:apply()里面可以跟自定义的函数,包括简单的求和函数以及复杂的特征间的差值函数等(注:apply不能直接使用agg()方法 / transform()中的python内置函数,例如sum、max、min、'count‘等方法)t...

2019-11-03 14:14:44 944

转载 我们生活在Python时代

" We are Living in “The Era of Python”。——译自Medium,作者Rinu Gour。 1989年,Guido van Rossum在参加设计ABC(一种教学语言)后,萌生了想要开发一种新语言的想法。1989年他创立了python语言。1991年初python公布了第一个公开发行版。你知道吗? Python编程语言一点也...

2019-11-03 14:14:44 349

转载 分组级转换 transform

transform() 里面不能跟自定义的特征交互函数,因为transform是真针对每一元素(即每一列特征操作)进行计算,也就是说在使用 transform() 方法时,需要记得三点:1、只能对每一列进行计算,所以在groupby()之后,.transform()之前是要指定要操作的列.2、由于只能对每一列计算,例如只能求列的最大/最小/均值/方差/分箱等操作.3、transform可以...

2019-11-02 21:07:36 383

转载 Python之父宣布退休

2019年10 月 30 日,Python 之父 Guido 大牛宣布退休,离开 box。他发推文说," 这件事感觉既苦涩又甜蜜:苦涩的是,我马上要离开 box,...

2019-11-01 16:30:44 425

转载 python分组处理数据

日常分组需求:季度平均收益季度销售量最大值、一年中各季度收入总额等等分组运算过程:split->apply->combine拆分:进行...

2019-11-01 16:30:44 683

原创 关于泰坦尼克号之灾

泰坦尼克号之灾“使人觉得遥远的不是时间长,而是两三件不可挽回的事。 from 博尔赫斯”import pandas as pd #数据分析import numpy as ...

2018-07-23 21:10:00 1579 1

原创 数据类型转换篇

python数据类型之间转换篇1.前言    使用python处理数据时,不可避免的要使用数据类型之间的转换。简单的诸如int、float、string之间的转换;更有数...

2018-07-22 15:49:23 2435

转载 特征工程之one-hot解读

在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。        例如,考虑一下的三个特征:        ["male", "female"]        ...

2018-07-20 19:05:18 5089

转载 谷歌发布机器学习速成课(中文!免费!)

希望学习机器学习的童鞋们的福音到了,全球AI第一大公司Google推出了“机器学习速成课程”,不仅全程中文,而且还免费听哦!课程一共15个小时,课程紧凑,所以读者朋友们,还是需要您有一定的基础知识的哈;课程主要分为三大部分:第一部分:机器学习概念第二部分:机器学习工程第三部分:机器学习系统在现实世界里的应用最后不仅仅如此哦:Google还提供了Colaboratory 平台直接在浏览器中运行编程练

2018-03-02 00:00:00 2246

转载 谷歌发布机器学习速成课(中文!免费!)

希望学习机器学习的童鞋们的福音到了,全球AI第一大公司Google推出了“机器学习速成课程”,不仅全程中文,而且还免费听哦!课程一共15个小时,课程紧凑,所以读者朋友们,...

2018-03-02 00:00:00 281

转载 机器学习术语表

ROM:Google发布本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。AA/B 测试 (A/B testing)一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好,而且还有助于了解相应差异是否具有显著的统计意义。A/B 测试通常是采用一种衡量方式对两种技术进行比较,但也适用于任意有限数量的技术

2018-03-01 00:00:00 1144

转载 机器学习术语表

ROM:Google发布本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。AA/B 测试 (A/B testing)一种统计方法,用于将两种或多...

2018-03-01 00:00:00 307

转载 独立同分布

为什么机器学习中, 要假设我们的数据是独立同分布的?最近在复读李航的统计学方法,又看到了“独立同分布”,觉得好奇,就开始了这个知识点的整理;首先看看百度百科对于独立同分布的解释:独立同分布independent and identically distributed (i.i.d.)在概率统计理论中,指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机

2018-02-25 00:00:00 12397

转载 独立同分布

为什么机器学习中, 要假设我们的数据是独立同分布的?最近在复读李航的统计学方法,又看到了“独立同分布”,觉得好奇,就开始了这个知识点的整理;首先看看百度百科对于独立同分布...

2018-02-25 00:00:00 965

转载 深度学习之CNN简介

本来想把CNN的一个kaggle比赛和这个放在一起,结果软件一直出问题。就先把这部分贴上。后面再奉上CNN实战的代码。深度学习概述传统的机器学习和深度学习一个很重要的差别就是特征的自动提取。深度学习现在更适合处理一些原始信息的特征,比如图片识别,音频,视频等。比如图片可以通过像素作为原始的特征,通过卷积神经网络不断的提取特征,最后再在这些特征上进行学习。对于音频就是通过声音的声波作为特征。 深度学

2018-01-11 00:00:00 854

转载 深度学习之CNN简介

本来想把CNN的一个kaggle比赛和这个放在一起,结果软件一直出问题。就先把这部分贴上。后面再奉上CNN实战的代码。深度学习概述传统的机器学习和深度学习一个很重要的差别...

2018-01-11 00:00:00 1521

原创 带你走入Kaggle 竞赛top20%的分析方法

Kaggle (Bike Sharing Demand)20%题目:https://www.kaggle.com/c/bike-sharing-demandGithub地址:https://github.com/cqychen/mykaggle/tree/master/Bike%20Sharing%20Demand强调,特征决定结果的高度,模型决定如何逼近这个高度数据探探这是一个关于自行车租赁预测

2017-12-19 00:00:00 3839

转载 带你走入Kaggle 竞赛top20%的分析方法


 

 

 
 
 Kaggle (Bike Sharing Demand)20%题目:https://www.kagg...

2017-12-19 00:00:00 412 1

转载 看看滴滴大牛是如何从码农到AI的华丽转身

作者简介     网名:小猪观察员,来自浙江大学软件工程的硕士研究生。在滴滴研究院大数据领航项       目中扮演核心成员,是位资深数据挖掘、数据分析专家;来自大神的自述: “本人码农一枚,因公司需要开发用户画像,开始接触机器学习。然后打开了另一扇门。个人认为机器学习对于码农来说应该是一门必修课,就犹如java一样,未来的开发中,机器学习会更加的普遍,成为一个个插件。从2017年5月27日,在柯

2017-12-18 00:00:00 1288

转载 看看滴滴大牛是如何从码农到AI的华丽转身


 

 

 
 
 作者简介     网名:小猪观察员,来自浙江大学软件工程的硕士研究生。在滴滴研究院大数据领航项   ...

2017-12-18 00:00:00 334

转载 听说能答对这十道题的都是python牛人

Caffe究竟Caffe是什么呢?Caffe是由Berkeley Vision and Learning Center(BVLC)建立的深度学习框架。它是模块化的,速度极...

2017-12-01 20:00:53 323

转载 听说能答对这十道题的都是python牛人

Python核心团队计划在2020年停止支持Python 2。 到2018年12月31日为止,所有的NumPy版本都将完全支持Python2和Python3。从2019年...

2017-12-01 20:00:53 224

转载 python版本维护说明--不要错过

Python核心团队计划在2020年停止支持Python 2。 到2018年12月31日为止,所有的NumPy版本都将完全支持Python2和Python3。从2019年1月1日开始,任何新的功能版本都只支持Python3。为了最小化干扰,在Python 2上运行 pip install numpy 将继续提供最后永久的版本,但在2019年1月1日之后,它可能不包含最新的功能,到2020年1月1日

2017-12-01 00:00:00 1743

转载 听说能答对这十道题的都是python牛人

1.题目:有1、2、3、4个数字,能组成多少个互不相同且无重复数字的三位数?都是多少?程序分析:可填在百位、十位、个位的数字都是1、2、3、4。组成所有的排列后再去 掉不满足条件的排列。 程序源代码:# -*- coding: UTF-8 -*-for i in range(1,5):    for j in range(1,5):       for k in range(1,5):

2017-12-01 00:00:00 739

转载 深度学习--必须了解的库

Caffe究竟Caffe是什么呢?Caffe是由Berkeley Vision and Learning Center(BVLC)建立的深度学习框架。它是模块化的,速度极快。而且被应用于学术界和产业界的start-of-the-art应用程序中。优点:速度快。Google Protocol Buffer数据标准为Caffe提升了效率。学术论文采用此模型较多。不确定是不是最多,但接触到的不少论文都与

2017-12-01 00:00:00 822

转载 听说能答对这十道题的都是python牛人


 

 

 
 
 1.题目:有1、2、3、4个数字,能组成多少个互不相同且无重复数字的三位数?都是多少?程序分析:可填...

2017-12-01 00:00:00 324

转载 Python破解验证码

项目简介:本实验通过一个简单的例子来实现破解验证码。从中我们可以学习到 Python 基本知识,PIL 模块的使用,破解验证码的原理。一、实验说明本实验将通过一个简单的例子来讲解破解验证码的原理,将学习和实践以下知识点:Python基本知识PIL模块的使用二、实验内容安装 pillow(PIL)库:$ sudo apt-get update$ sudo apt-get install python

2017-11-23 00:00:00 839

转载 Python破解验证码


 

 

 
 
 项目简介:本实验通过一个简单的例子来实现破解验证码。从中我们可以学习到 Python 基本知识,PI...

2017-11-23 00:00:00 225

转载 最全的python内置函数整理

小冯故事一:一次,冯·诺伊曼在晚会上,女主人勇敢地向他提出一个谜题:两列火车在同一轨道上以每小时 30 英里的速度相对而行,且相距 1 英里,这时栖在一列火车前面的一只苍...

2017-11-14 19:00:00 223

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除