自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (1)
  • 收藏
  • 关注

原创 零基础爬虫入门(二) | 爬取数据之HTTP原理

本片博文介绍HTTP协议相关知识、目标网页的解析、爬虫抓取策略。爬取数据之HTTP原理

2020-03-31 11:06:12 5367 41

原创 零基础爬虫入门(一) | 初识网络爬虫

本篇博文主要介绍网络爬虫的基本概念、工作原理以及开发环境。我们为什么要了解网络爬虫?因为当今从事科学研究等,需要大量的数据,但是这些数据公开的又非常的少,大量的数据都在大公司的手中。我们这些普通人本身并没有那么多数据,但是我们又需要大量的数据。那么,这时我们就需要用到网络爬虫了。Chapter01 | 初识网络爬虫一、什么是网络爬虫1、爬虫产生的背景1.1、万维网的高速发展1.2、搜索引...

2020-03-30 09:03:03 6178 50

原创 大数据应用导论 Chapter05 | 数据可视化

本篇博文简单介绍大数据应用的流程中数据可视化的各种工具和使用方法。Chapter05 | 数据可视化一、可视化概述二、Matplotlib可视化1、Matplotlib基本介绍2、Matplotlib基本图表函数2.1、正弦图像1、简单的正弦图像2、加上坐标轴名称和刻度3、在一个图中画多条线4、实线变虚线5、一界多图2.2、其他图像1、散点图2、柱形图3、箱线图4、饼图2.3、拓展包三、Se...

2020-03-28 09:15:57 5103 22

原创 大数据应用导论 Chapter04 | 大数据分析

本篇博文介绍大数据分析的常用方法——机器学习的概念、常用算法以及相关Python库的使用。Chapter04 | 大数据分析一、数据分析介绍1、机器学习发展历程2、机器学习的分类2.1、有监督学习(supervised learning)2.2、无监督学习(unsupervised learning)2.3、强化学习(reinforcement learning)3、机器学习的基本概念和流程...

2020-03-27 08:55:48 5843 21

原创 大数据应用导论 Chapter03 | 大数据的存储与管理

本篇博文介绍大数据应用的流程中数据存储与管理的不同工具和各自的应用场景。Chapter03 | 大数据的存储与管理一、数据管理与存储概述1、数据存储技术的发展1.1、关系型数据库和非关系型数据库1.2、分布式文件系统(GFS和HDFS)二、关系型数据库1、目前主流关系型数据库2、MySQL的python接口创建3、MySQL查询4、MySQL案例演示三、非关系型数据库1、MongoDB简介2...

2020-03-26 08:55:21 7262 20

原创 大数据应用导论 Chapter02 | 大数据的采集与清洗

Chapter2 | 大数据的采集与清洗一、数据采集的方法1、传感器1.1、传感器主要应用1.2、传感器的功能2、日志系统3、网络爬虫3.1、爬虫的作用3.2、爬虫的分类3.3、爬虫的框架二、数据采集的工具1、日志系统 Flume1.1、工作机制1.2、应用场景2、日志系统 Kafka2.1、应用场景2.2、工作机制3、日志系统 Chukwa3.1、Chukwa的架构3.2、各个日志系统的对比4、...

2020-03-25 09:15:07 6524 24

原创 大数据应用导论 Chapter1 | 大数据技术与应用概述

读者们可以通过此博客初步了解大数据技术的整体框架和使用流程,让读者们更加直观的感受到大数据的魅力。Chapter1 | 大数据技术与应用概述1、大数据的概念1、什么是Big Data?2、大数据的五大特征2、大数据的历史发展1、物联网(Internet of things)2、云计算(Cloud computing)3、云平台(Cloud Platform)4、云计算的关键技术5、大数据、云...

2020-03-24 08:50:00 7773 25

原创 快速入门Tableau系列 | Chapter14入门最终章【回归分析和时间序列分析】

41、回归分析回归分析:本质上是讲存在及可能存在的相关关系的变量拟合成直线或者曲线。据此,我们一方面可以总结出已有数据的规律和特征,另一方面还可以预测数据。1、简单的线性回归模型步骤:①人工服务接听量->列,呼入案头总时长->列;分析->取消聚合度量②添加回归分析:直接右键->趋势线->显示趋势线...

2020-03-23 09:11:25 6148 43

原创 快速入门Tableau系列 | Chapter13【雷达图和凹凸图】

Chapter1339、雷达图40、凹凸图39、雷达图雷达图主要是用来进行多个维度的比较和分析。步骤:先看下原始数据:为什么会出现上述的情况呢,其实在Excel表中是有两个进攻能力的,但是在导入Tableau时,为了区分方便,自动转换成上图所示。下面我们来看下原始数据:这样一对比是不是就清晰了许多。下面开始制作过程:①数据表处理:选中第2列,按住shift,再选最后一列。就选中...

2020-03-22 16:27:28 5523 42

原创 快速入门Tableau系列 | Chapter12【网络图与弧线图】

Chapter1237、网络图1、简单的网络图2、省份关系图3、线路关系图38、弧线图37、网络图1、简单的网络图数据如图:图中表记处,为重点部分。制作步骤:①描点: x->列,Y->行,取消聚合度量②连线:标记->线,关联->路径③复制Y,做双轴图。第二个图:标记->形状(实心点),点->标签,标签->允许标签覆盖其他标记④点击...

2020-03-22 16:09:24 6438 40

原创 快速入门Tableau系列 | Chapter11【范围-线图、倾斜图】

35、范围-线图范围-线图将整体数据的部分统计特征(均值、最大值、最小值等)展现在图形中,既可以说明群体特征,还可以展示个体信息,更可以比较个体与整体的相关关系。...

2020-03-22 14:42:51 3795 41

原创 快速入门Tableau系列 | Chapter10【人口金字塔、漏斗图、箱线图】

Chapter1032、人口金字塔33、漏斗图34、箱纸图32、人口金字塔人口金字塔在本质上是一堆条形图人口金字塔是一种特殊的旋风图步骤:①创建“年龄”计算字段:右击空白->创建计算字段新建完成的年龄在度量内是错误的,我们需要把它拖到维度内。展示:年龄->行,Counts->文本这时完美解决此数据源数据为NULL的问题。②创建年龄数据桶(间隔10)和创建2个...

2020-03-22 12:00:01 5469 38

原创 快速入门Tableau系列 | Chapter09【计算字段与表计算:粒度、聚合与比率】

28、

2020-03-22 09:28:13 5540 39

原创 快速入门Tableau系列 | Chapter08【数据分层、数据分组、数据集】

25、数据分层(层级)结构25.1 分层结构的概念和意义分层结构是一种维度之间自上而下的组织形式,Tableau默认包含对某些字段的分层结构,比如日期、日期与时间、地理角色,以日期为例,日期本来就包括年、月、日的层次结构。25.2 分层结构的创建与使用分层结构的展示:①订单/人员->拖动形成集合②利润->行,订单日期->列,选择整个视图,点击年(订单日期)可上/下钻...

2020-03-21 16:06:45 5728 37

原创 快速入门Tableau系列 | Chapter07【多边形地图和背景地图:设置地理信息(自定义地图码导入、设置地图源)】

Day0721、多边形地图21.1 多边形地图的相关概念21.2 国家公园多边形地图的制作22、设置地理信息22.1 自定义地理码导入22.2 三种类型的自定义类型编码23、不同风格的背景地图24、自定义背景地图高级的填充地图->多边形地图 。高级的符号地图->背景图地图。21、多边形地图21.1 多边形地图的相关概念多边形地图是填充地图的一种补充,基于地理均码,数据文件绘制...

2020-03-21 12:27:39 6527 38

原创 淘宝商品比价爬虫

此篇笔记是笔者在学习嵩天老师的《Python网络爬虫与信息提取》课程及笔者实践网络爬虫的笔记。淘宝商品比价爬虫一、前提准备1、功能描述2、分析页面3、代码实现4、完整代码:5、运行结果6、总结一、前提准备1、功能描述获取淘宝搜索页面的信息,提取其中的商品名称和价格。2、分析页面①先确定搜索url根据上图我们可以看到url为:https://s.taobao.com/search?q...

2020-03-20 15:52:26 7014 40

原创 快速入门Tableau系列 | Chapter05(进阶)【数据集合并、符号地图、智能显示、插入自定义形状、仪表板】

13、

2020-03-20 08:38:06 5642 35

原创 快速入门Tableau系列 | Chapter04【标靶图、甘特图、瀑布图】

Day0410、制作标靶图10.1 标靶图的概念和用途10.2 参考线10.3 参考分布11、制作甘特图11.1 甘特图的概念和用途11.2 交货延期情况的甘特图11.3 不同的日期类型选择12、瀑布图10、制作标靶图10.1 标靶图的概念和用途标靶图在通常的情况下是在基本条形图的基础上增加一些参考线,参考区间,可以帮助分析人员更加直观的了解两个度量之间的关系。通常是用来比较计划值和实际值,...

2020-03-19 15:37:09 5616 38

原创 快速入门Tableau系列 | Chapter03【基本表、树状图、气泡图、词云】

7、基本表

2020-03-18 16:41:37 5533 21

原创 快速入门Tableau系列 | Chapter02【数据前处理、折线图、饼图】

Day024、数据前处理(数据拆分)5、绘制折线图5.1 绘制电影数量变化折线图5.2 电影票房变化折线图5.3 某年的电影数量与票房比较分析6、饼图与环形图6.1 酒店价格等级饼图6.2 酒店价格等级环形图4、数据前处理(数据拆分) 方法:在数据源中,点击每列数据类型标签后的下拉列表,选择拆分 缺点:智能拆分,有时会丢失信息。如果想要更精确的拆分,用Python更好。 注意:原列只能隐藏...

2020-03-18 08:59:32 6181 13

原创 快速入门Tableau系列 | Chapter01【Tableau简介、条形图与直方图】

此系列博客为博主本人学习Tableau的过程!!!!!Tableau简介:Tableau Desktop 是基于斯坦福大学突破性技术的软件应用程序。它帮助您生动地分析实际存在的任何结构化数据,以在几分钟内生成美观的图表、坐标图、仪表盘与报告。利用 Tableau 简便的拖放式界面,您可以自定义视图、布局、形状、颜色等等,帮助您展现自己的数据视角。其他详细的信息,自己可以百度!下面首先展示...

2020-03-17 13:31:55 5740 15

原创 采用sql存储的方法保存所爬取的豆瓣电影

爬取时间:2020-03-13 爬取难度:★★☆☆☆☆ 这次采用的存储方式是sql数据库存储爬取豆瓣Top250一、循环爬取网页模板二、解析与处理模块1、BeautifulSoup解析电影名称,评分信息和评论人数2、BeautifulSoup解析其他详细信息3、整合三、保存文本内容以及图片四、数据存储五、在mysql中创建表格1、建立连接2、创建表格六、完整代码七、数据截图八、程序的不足...

2020-03-16 15:08:24 6179 27

原创 爬取豆瓣电影详细数据,保存为CSV文件

爬取时间:2020-03-22 爬取难度:★★☆☆☆☆ 请求链接:https://movie.douban.com/top250 以及每部电影详情页,图片 爬取目标:爬取榜单上每一部电影详情页的数据,保存为 CSV 文件 涉及知识:request、urllib、bs4、CSV 和二进制数据储存、列表操作爬取豆瓣Top250一、循环爬取网页模板二、解析与处理模块1、BeautifulS...

2020-03-15 12:50:22 12525 45

原创 简单的图片爬取,爬取豆瓣电影图片并保存到本地

最近刚刚学习了网络爬虫这门课程,那么自然而然地爬取了豆瓣电影Top这个经典案例

2020-03-14 19:08:57 7428 45

机器学习——疫情分析.zip

很直观的对疫情进行分析。适合机器学习者使用。

2020-05-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除