自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(187)
  • 收藏
  • 关注

原创 Python 数据分析微专业课程--项目实战09 房价影响因素挖掘1.项目说明2.项目具体要求3.实现思路:4.实现过程:5.结论:

1.项目说明分析上海房价和房租,计算租售比;分析上海市人口密度、路网密度、餐饮价格和房价的关系。2.项目具体要求1、数据清洗、整合 要求: ① 将“house_rent”、“house_sell”分别读取 ② 分别计算平方米建筑面积的月租金、每平方米建筑面积的房价 ③ 将数据按照小区名合并2、计算“房屋售租比”,并做初步判断 要求: ① 计算指标 ② 绘制直方图、箱型图看“售租比”的一个数据分布情况3、上海市人口密度、路网密度、餐饮价格,离市中心距离和“房屋每平米均价”是否有关系呢? 要

2021-07-09 17:18:28 531

原创 Python 数据分析微专业课程--项目07 电商打折套路解析1.项目说明2.项目具体要求3.实现思路:4.实现过程:5.总结

import numpy as np import pandas as pd import matplotlib.pyplot as plt import warnings warnings.filterwarnings('ignore') # 不发出警告 from bokeh.io import output_notebook output_notebook() # 导入notebook绘图模块 ...

2021-07-09 17:17:38 407 1

原创 Python 数据分析三剑客之 Pandas(二):Index 索引对象以及各种索引操作

CSDN 课程推荐:《迈向数据科学家:带你玩转Python数据分析》,讲师齐伟,苏州研途教育科技有限公司CTO,苏州大学应用统计专业硕士生指导委员会委员;已出版《跟老齐学Python:轻松入门》《跟老齐学Python:Django实战》、《跟老齐学Python:数据分析》和《Python大学实用教程》畅销图书。Pandas 系列文章: Python 数据分析三剑客之 Pandas(一):认识 Pandas 及其 Series、DataFrame 对象 Python 数据分析三剑客之 P

2021-07-09 17:16:45 726

原创 Python 数据分析包:pandas 入门2. pandas入门

转载自: http://pda.readthedocs.org/en/latest/chp5.html#id15 2. pandas入门 [ ¶ ](http://pda.readthedocs.org/en/latest/chp5.html#pandas"Permalink to this headline")在本书的剩下部分,pandas将是我们最敢兴趣的主要库。它包含高级的数据结构和精巧的工具,使得在Python中处理数据非常快速和简单。pandas建造在NumPy之上,它使得以NumP

2021-07-09 17:15:57 195

原创 Python 数据分析 数据挖掘 学习路径图

话不多说,相信看到这篇文章的你一定是对数据分析,数据挖掘有兴趣,或者想从事和方面。本文不再累述python对数据分析的重要,数据分析这门的由来之类的。在这里,我单刀直入,已我学习数据挖掘3年来的经历告诉大家怎么去学,以让大家少走弯路。纯个人见解,如有不对,还请各位留言指教。话不多说,直接放图。一 学好工具python语言推荐看 廖雪峰的python3教程 。数据分析python基础如list,tuple,dic,set等。我之后的博客会写到。二 获取数据p

2021-07-09 17:08:13 178

原创 Python 利用 pyecharts 做数据分析绘图

柱状图 from pyecharts import Bar bar = Bar("柱状图") bar.add("服装", ["衬衫", "羊毛衫", "雪纺衫", "裤子", "高跟鞋", "袜子"], [5, 20, 36, 10, 75, 90]) bar.add("鞋子", ["的萨芬", "士大夫", "暗示法", "农安", "额", "全球"], [5, 20, 36, 10, 75, 90]) # bar.print_echarts_options(...

2021-07-09 17:07:38 377

原创 orange 数据分析_使用Orange GUI的放置结果数据分析

orange 数据分析Objective : Analysing of several factors influencing the recruitment of students and extracting information through plots.目的: 分析影响学生招生和通过情节提取信息的几个因素。Description : The following analysis presents the different plots that attempts to link st

2021-07-09 17:06:28 246

原创 orange 数据分析_使用Orange GUI的放置结果数据分析

orange 数据分析Objective : Analysing of several factors influencing the recruitment of students and extracting information through plots.目的: 分析影响学生招生和通过情节提取信息的几个因素。Description : The following analysis presents the different plots that attempts to link st

2021-07-09 17:04:31 737

原创 NumPy库入门 北理工嵩天老师python数据分析与展示随堂笔记 (1)NumPy库入门 北理工嵩天老师python数据分析与展示随堂笔记

NumPy库入门 北理工嵩天老师python数据分析与展示随堂笔记列表和数组的区别列表:列表中每一个元素的数据类型是可以不同的 数组:要求每一个元素的数据类型是相同的多维数据二维数据:由多个一维数据构成,是一维数据组合形式 高维数据:高维数据仅利用最基本的二元关系展示数据间的复杂结构数据维度的python表示一维数据:列表和集合类型 [3.1398,3.1349,3.1376] 有序 {3.1398,3.1349,3.1376} 无序 二维数据:列表类型 [[3.1398,3.134

2021-07-09 17:03:42 132

原创 Python 数据分析三剑客之 Pandas(二):Index 索引对象以及各种索引操作

CSDN 课程推荐:《迈向数据科学家:带你玩转Python数据分析》,讲师齐伟,苏州研途教育科技有限公司CTO,苏州大学应用统计专业硕士生指导委员会委员;已出版《跟老齐学Python:轻松入门》《跟老齐学Python:Django实战》、《跟老齐学Python:数据分析》和《Python大学实用教程》畅销图书。Pandas 系列文章: Python 数据分析三剑客之 Pandas(一):认识 Pandas 及其 Series、DataFrame 对象 Python 数据分析三剑客之 P

2021-07-06 19:38:53 1021

原创 Python 数据分析包:pandas 入门2. pandas入门

转载自: http://pda.readthedocs.org/en/latest/chp5.html#id15 2. pandas入门 [ ¶ ](http://pda.readthedocs.org/en/latest/chp5.html#pandas"Permalink to this headline")在本书的剩下部分,pandas将是我们最敢兴趣的主要库。它包含高级的数据结构和精巧的工具,使得在Python中处理数据非常快速和简单。pandas建造在NumPy之上,它使得以NumP

2021-07-06 19:37:58 234

原创 python 数据分析(六)astype(‘category‘)按类别分组 + 分组聚合操作 + 透视表 + 交叉表 + excel表的数据处理一、按照类别单独分类astype()二、时间操作三、分组

文章目录 一、按照类别单独分类astype() astype()用法 二、时间操作 第一种:直接利用to_datetime() 第二种:Series.dt 三、分组聚合操作 分组 (1)groupby()方法 聚合 (1)agg()方法

2021-07-06 19:35:01 3906

原创 Python 数据分析 数据挖掘 学习路径图

话不多说,相信看到这篇文章的你一定是对数据分析,数据挖掘有兴趣,或者想从事和方面。本文不再累述python对数据分析的重要,数据分析这门的由来之类的。在这里,我单刀直入,已我学习数据挖掘3年来的经历告诉大家怎么去学,以让大家少走弯路。纯个人见解,如有不对,还请各位留言指教。话不多说,直接放图。一 学好工具python语言推荐看 廖雪峰的python3教程 。数据分析python基础如list,tuple,dic,set等。我之后的博客会写到。二 获取数据p

2021-07-06 19:34:13 100

原创 Python 利用 pyecharts 做数据分析绘图

from pyecharts import Bar bar = Bar("柱状图") bar.add("服装", ["衬衫", "羊毛衫", "雪纺衫", "裤子", "高跟鞋", "袜子"], [5, 20, 36, 10, 75, 90]) bar.add("鞋子", ["的萨芬", "士大夫", "暗示法", "农安", "额", "全球"], [5, 20, 36, 10, 75, 90]) # bar.print_echarts_options()...

2021-07-06 19:33:32 340 2

原创 orange 数据分析_使用Orange GUI的放置结果数据分析

orange 数据分析Objective : Analysing of several factors influencing the recruitment of students and extracting information through plots.目的: 分析影响学生招生和通过情节提取信息的几个因素。Description : The following analysis presents the different plots that attempts to link st

2021-07-06 19:32:34 225

原创 NumPy库入门 北理工嵩天老师python数据分析与展示随堂笔记 (1)NumPy库入门 北理工嵩天老师python数据分析与展示随堂笔记

NumPy库入门 北理工嵩天老师python数据分析与展示随堂笔记列表和数组的区别列表:列表中每一个元素的数据类型是可以不同的 数组:要求每一个元素的数据类型是相同的多维数据二维数据:由多个一维数据构成,是一维数据组合形式 高维数据:高维数据仅利用最基本的二元关系展示数据间的复杂结构数据维度的python表示一维数据:列表和集合类型 [3.1398,3.1349,3.1376] 有序 {3.1398,3.1349,3.1376} 无序 二维数据:列表类型 [[3.1398,3.134

2021-07-06 19:31:54 141

原创 NBA比赛数据分析与预测

我的任务利用13到16年的NBA比赛统计数据,去预测17年的每场NBA比赛。数据是从 http://www.basketball- reference.com/ 这个网站获得的。前期参考了 https://www.shiyanlou.com/courses/782/labs/2647/document 这里的分析与实现方法。这个实验楼里实现用了LogisticRegression。现在我想对数据做一些预处理,并且用其他分类方法做决策,比较着看效果。Michael J. Lopez的《Building

2021-07-06 19:31:12 1920

原创 mysql+python+pyecharts电商数据分析

数据来自天池数据集,淘宝2004年11月18日至12月18日用户行为数据,本文导入446000条数据到本地mysql用于分析。 数据下载地址: https://tianchi.aliyun.com/dataset/dataDetail?dataId=46 数据包括字段为user_id、item_id、behavior_type(1–点击,2–收藏,3–加购物车,4–支付)、user_geohash、item_category、time。数据示例如下: 读取mysql数据载入相关的库: .

2021-07-06 19:30:28 519 2

原创 Matplotlib-利用pandas进行数据分析并作可视化展示一、简单的绘图展示二、绘制柱状图三、共用坐标轴绘制两种不同类型的图四、pandas导入excel数据并绘制频率分布直方图五、绘制箱线图

一、简单的绘图展示 二、绘制柱状图 三、共用坐标轴绘制两种不同类型的图 四、pandas导入excel数据并绘制频率分布直方图 五、绘制箱线图 * 一、简单的绘图展示 randomList = np.random.randn(10).cumsum() randomList #结果 ''' array([ 0.43692622, -0.17404988, 0.8479853 ,...

2021-07-06 19:29:56 502

原创 MATLAB数据分析与挖掘 -- 数据探索篇

数据质量分析主要是检查原始数据中是否存在 脏数据 ,并做相应的处理,是数据预处理的前提,主要包括以下几种: 缺失值 :记录的缺失或某个字段信息的缺失,一般的做法是删除、插补或者不作处理。 异常值 :也即离群点,常用 简单统计分析 , 3 σ \sigma σ 原则 , 箱图分析 。 1、 简单统计分析 :先对变量做一个描述性统计,进而查看哪些数据是不合理的,如199岁的年龄显然不合理);2、 3 σ \sigma σ 原则 :前提是数据服从正态分布,在3 σ \sigma σ

2021-07-05 20:55:36 1474 2

原创 MATLAB 数据分析一: 描述样本数据的几个基本特征

测试数据:load yhdz.matyhdz如下:yhdz = 3 4 5 6 7 7 89 8 90 11 22 3 45 77 66 88 87 44 2 231,均值:mean(yhdz)ans = 34.35002,中位数:排序后中间数据的值,若数据量为奇数,则为中间的数值;若数据量为偶数个,中位数为中间两个数的平均值。median(yhdz)ans = 16.50003,分位数:设0<= p < 1,则样本数据有p分位数的概念。事

2021-07-05 20:54:22 1599

原创 MapReduce解决乘用车辆和商用车辆的销售数据分析

首先还是看下我们的需求 然后拿到我们的数据 可以看到我们的数据里面还有很多空值,是还没清洗的脏数据,一会我们处理的时候需要将其处理掉.一.统计车辆不同用途的数量分布 package hadoop.MapReduce.car.Use; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWr...

2021-07-05 20:52:44 4093 9

原创 Kaggle上的泰坦尼克生还数据分析数据准备数据探索初次建模模型优化

数据准备先根据数据的codebook来给每列命名,同时预先设定类型 1 2 3 4 ...

2021-07-05 20:51:49 149

原创 ETF基金定投数据分析1——数据收集

ETF基金定投数据分析1——数据收集作为一个80后的小伙,我错过了一次又一次让自己财富增加的机会,唯一的投资理财就是把钱通通放到某额宝里。一年前,我开始学习理财的知识,最后选择进行etf基金定投来投资。找了一家券商开了户。投资的品种就两个:300ETF和纳指ETF,分别追踪沪深300指数和纳斯达克指数。选择这两个指数之前我用python跑了一下历史数据,二者的相关性很低,也许可以做风险对冲? 开始是每个月一次,后来逐渐增加到每个月三次,隔十天左右进行一次。单纯买入,没有止盈止损。我计划是先这么投一年,再

2021-07-02 17:22:49 944 1

原创 ECharts基础视频教程--大数据分析图表

EChartsECharts,缩写来自Enterprise Charts,商业级数据图表,一个纯Javascript的图表库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器(IE6/7/8/9/10/11,chrome,firefox,Safari等),底层依赖轻量级的Canvas类库ZRender,提供直观,生动,可交互,可高度个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。**ECharts视频教程**

2021-07-02 17:21:38 276

原创 Ebay开源 Pulsar:实时大数据分析平台

作者: 汪兴朗 汪 明明 王巧玲eBay 作为全球性的商务平台和支付行业领先者 , 拥有海量的用户行为数据。基于现有的 hadoop 大数据处理,已经不能够满足业务上对实时性的需求。基于 eBay 过去的大数据处理的经验和对最新技术的运用, eBay 探索出一个对海量的数据流进行实时的收集,处理,分发和分析的平台。并于 2015 年 2 月底开源此平台 : Pulsar. Pulsar作为一个复杂事件处理平台,具有快速,准确,灵活的特性,保证点到点的低延时和高可靠,从而很好得满足了的eB.

2021-07-02 17:20:53 588

原创 数据获取及分析

最近在做一些抖音相关的工作,主要是学习上的,老师要求的,做一些数据分析,但是抖音的爬虫是太难了,反编译之后一层层的加密,忙活了好几个月,再加上各方求助,总算可以获取到其数据进行分析了。数据获取及分析抖音的安卓和苹果是两套不同的系统,随着抖音的升级,甚至抓包都成了一件困难的事情,之前用模拟器刷机之后用Xposed+Just Trust Me模块可以解决SSL Pining的问题,但是现在似乎也不行了,但是办法总是有的嘛!用低版本的抖音就可以了。解决了抓包,就可以解决初步的问题了。首先,我想获得一些

2021-07-02 17:19:19 217

原创 DNA甲基化数据分析专题

欢迎关注”生信修炼手册”!DNA 甲基化作为重要的表观遗传学的标记,能够调控基因的表达,在生长发育和疾病相关研究领域都有着重要意义。测定甲基化的手段有很多,芯片作为一种成熟的手段,其稳定性,可重复性以及性价比,使得在DNA甲基化研究领域芯片占据了半壁江山。对于human来说,目前主流的DNA甲基化芯片有450K 和 850K 两种,都是illumina 公司研发的。这里的 450K 和 850K 指的是芯片上探针的数量,对应可以检测的甲基化位点个数。本文整理了DNA甲基化芯片分析的相关资料,首先是初

2021-07-02 17:17:32 1741

原创 CNV数据分析专题

欢迎关注”生信修炼手册”!CNV全称为Copy Number Variatiosn, 即拷贝数异常,是广泛存在于基因组上的一种结构变异现象。异常片段大小从1 Kb到数Mb范围不等, 包括了拷贝数的缺失、插入、重组以及多位点的复杂变异等多种情况。作为结构变异的一种,科学家自然而然将CNV和疾病联系起来,有很多的研究表明了CNV和疾病的关联性。目前研究CNV的方法有很多,除了传统的细胞遗传学手段外,还有aCGH芯片,SNP芯片,NGS等多种手段,本文整理了CNV分析相关的资料aCGH芯片的CNV分析

2021-07-02 17:13:49 2510

原创 CDA数据分析师课程分享CDA数据分析师

CDA数据分析师经管之家CDA数据分析师,北风网数据分析大师链接: http://pan.baidu.com/s/1mhPOYt6 密码: aeds如果连接失效,可以加我扣发你,1754640672 ,备注“cda资料”

2021-07-02 17:11:19 379

原创 CDA数据分析师 - 《从零进阶!数据分析的统计基础》思维结构简图

1.数据分析概述2.描述性统计分析3.数理统计基础4.抽样估计5.假设检验6.方差分析7.相关与回归分析

2021-07-02 17:10:22 152

原创 B站2020年每周必看热门视频数据盘点(数据分析)1.数据抓取2.数据清洗3.数据分析及可视化

1.数据抓取数据集的获取是我们进行数据分析的第一步。现在获取数据的主要途径一般为:现成数据;自己写爬虫去爬取数据;使用现有的爬虫工具爬取所需内容,保存到数据库,或以文件的形式保存到本地。 博主用的是用自己编写的爬虫代码获得数据。爬虫的设计思路1.首先确定需要爬取网页URL地址 2.通过HTTP/HTTPS协议来获取相应的HTML页面 3.提取HTML页面里有用的数据 a.如果是需要的数据就保存起来 b.如果是页面里的其他URL,那就继续执行第二步。爬虫基本流程发起请求 通过HTTP库向目

2021-07-02 17:09:36 2558 1

原创 BDP个人版产品体验报告:在线数据分析使用心得

BDP个人版作为国内海致公司旗下的数据可视化分析产品,因其 简单的拖拽操作、直观的可视化效果等 ,逐渐成为运营、产品等互联网人的必备数据工具。BDP目前处于产品成长期,发展势头良好,作为路转粉用户,本文我将从BDP产品定位出发, 结合使用体验和目标用户群体等方面展开分析,并结合实际提出一些建议和想法。分析结构脑图如下:一、体验环境因为数据分析主要在Web端,所以这次的体验主要在Web端,移动端主要是方便查看数据, 所以移动端功能就不做一一介绍了。产品名称:BDP个人版体验设备 : M

2021-07-02 16:50:30 1638

原创 【python数据分析实战】城市餐饮店铺选址问题(2)—— 确定餐馆的具体位置

1. 选址的评价指标如下:人口密度指标 → 得分越高越好 道路密度指标 → 得分越高越好 餐饮热度指标 → 得分越高越好 同类竞品指标 → 得分越低越好 综合指标 = 人口密度指标x0.4 + 餐饮热度指标x0.3 + 道路密度指标x0.2 +同类竞品指标x0.1(假定)2. 需要的空间数据(全是投影坐标系)上海行政区:net_population.shp (上海1km²格网内的人口密度数据) 具体的道路:road.shp (上海道路数据) 网格数据:需要后面自己划分设定在 qgis 做空间

2021-06-29 19:11:04 1402 1

原创 【Python数据分析基础】_ 异常值检测和处理

在机器学习中,异常检测和处理是一个比较小的分支,或者说,是机器学习的一个副产物,因为在一般的预测问题中,模型通常是对整体样本数据结构的一种表达方式,这种表达方式通常抓住的是整体样本一般性的性质,而那些在这些性质上表现完全与整体样本不一致的点,我们就称其为异常点,通常异常点在预测问题中是不受开发者欢迎的,因为预测问题通产关注的是整体样本的性质,而异常点的生成机制与整体样本完全不一致,如果算法对异常点敏感,那么生成的模型并不能对整体样本有一个较好的表达,从而预测也会不准确。 从另一方面来说,异常点在某些场景下反

2021-06-29 19:10:24 594

原创 # python数据分析-数据清洗与整理###### 又开始我的好好学习之旅,这周学习数据分析,居老师日常动力!![](https://img-blog.csdnimg.cn/201901

rating_by_title=data.groupby('title').size()[/code]按评论数降序排列```code rating_by_title.sort_values(ascending=False)[:10][/code]```code title Pulp Fiction (1994) 67310 Forrest Gump (1994) ...

2021-06-29 19:09:43 91

原创 【python数据分析】-数据清洗与整理python数据分析-数据清洗与整理

python数据分析-数据清洗与整理又开始我的好好学习之旅,这周学习数据分析,居老师日常动力!今天要跟着罗罗攀(公众号:luoluopan1)学pandas数据清洗、合并、重塑以及字符串处理,数据均来自罗罗攀,敲棒~1.数据清洗处理缺失值第一步:找出缺失值 主要通过 isnull 和 notnull 方法返回 布尔值 来判断什么位置有缺失值 (注:使用juypter notebok) from pandas import DataFrame,Series impo..

2021-06-29 19:08:41 1017 1

原创 【python数据分析】练习4:线性回归—二手房价预测

数据集及源码 [ https://github.com/JCATHoney/python-data-analysis](https://github.com/JCATHoney/python-data-analysis)一、问题描述在对房价的影响因素进行模型研究之前,首先对各变量进行描述性分析,以初步判断房价的影响因素,进而建立房价预测模型总体步骤如下: (一) 因变量分析:单位面积房价分析(二) 自变量分析: 2.1 自变量自身分布分析 2.2 自变量对因变量影响分析(三)建立房价

2021-06-29 19:07:39 2169 1

原创 【Python数据分析】波士顿房价分析小例子

%matplotlib inline #将生成的图片嵌入网页中 import matplotlib.pyplot as plt from sklearn import datasets from sklearn.feature_selection import SelectKBest,f_regression from sklearn.linear_model import LinearRegression #导入先行...

2021-06-29 19:06:53 437

原创 ##### 0. 前期准备:导入三个必备的库,推荐使用jupyter notebook或者spyder编程环境```code import numpy as np impor

0. 前期准备:导入三个必备的库,推荐使用jupyter notebook或者spyder编程环境 import numpy as np import pandas as pd import matplotlib.pyplot as plt1. 线形图1) Series直接生成线形图参数介绍: Series.plot() :series的index为横坐标,value为纵坐标 kind → line,bar,barh…(折线图,柱状图,柱状图-横…) label ...

2021-06-29 19:05:58 392

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除