![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
Vivid-victory
○( ^皿^)っHiahiahia…
展开
-
【Python】20Newsgroup文本分类(TF-IDF向量化,十种sklearn分类器)
数据集介绍数据集链接:http://qwone.com/~jason/20Newsgroups/(比较慢,建议Science上网)当然这里用不到这个数据集,sklearn导入会自动下载,倘若比较慢,可参考:sklearn.datasets.fetch_20newsgroups的下载速度极慢采用离线下载导入等别的方法具体实践中,稍等了一会儿就好了的。sklearn自带数据集datasets,划分好训练集和测试集了。from sklearn.datasets import fetch_20newsgr原创 2020-05-29 01:47:26 · 5326 阅读 · 0 评论 -
【Python】超市数据处理(to_datetime(),strptime()获取特定时间数据)
任务要求1、哪些类别的商品比较畅销?2、哪些商品比较畅销?3、求不同门店的销售额占比,绘制饼图4、哪段时间段是超市的客流高峰期?知识点杂记1、Python time strptime()方法struct_time = time.strptime("30 Nov 00", "%d %b %y")print("返回的元组: " ,struct_time)2、python统计list中个元素出现次数pd.value_counts(data)3、Pandas 中Dataframe数据插原创 2020-05-27 17:29:15 · 908 阅读 · 0 评论 -
【Python】美国大选献金项目数据分析(concat(),lambda(),groupby(),pivot_table())
任务要求读入美国总统选举政治献金数据文件,合并三个文件的数据查看数据基本信息缺失值处理,(填充 ‘NOT PROVIDE’)通过给定字典,添加候选人对应党派信息parties = {‘Bachmann, Michelle’: ‘Republican’,‘Romney, Mitt’: ‘Republican’,‘Obama, Barack’: ‘Democrat’,“Roemer, Charles E. ‘Buddy’ III”: ‘Republican’,‘Pawlent原创 2020-05-20 18:16:45 · 1495 阅读 · 0 评论 -
【Python】数据预处理:归一化和离散化(MinMaxScaler,StandardScaler,cut,qcut)
一、内容来源课程来源:大数据分析师(第一期)(学堂在线 北邮 杨亚)数据集分享:https://pan.baidu.com/s/197wLiuRLaB8kOxV9Ay7eTQ提取码:hldd二、学习笔记注意点:若采用sklearn.preprocessing中的函数进行归一化,要将数据转为二维的!数据只有一维,可采用方法:reshape(-1, 1) #变为n行1列的二维矩阵形式参考资料:25、pandas的reshape(1,-1)什么意思?三、代码分享import pandas a原创 2020-05-18 18:06:41 · 2145 阅读 · 0 评论 -
【Python】处理城市空气质量数据(异常值处理,interpolate()线性插值)
一、内容来源课程来源:大数据分析师(第一期)(学堂在线 北邮 杨亚)数据集分享:链接:https://pan.baidu.com/s/1nU29LEfrILve3-ERqccUTQ提取码:6ptf二、学习笔记(广州)3σ原则为数值分布在(μ-σ,μ+σ)中的概率为0.6827数值分布在(μ-2σ,μ+2σ)中的概率为0.9545数值分布在(μ-3σ,μ+3σ)中的概率为0.9973数据处理代码1:找出异常值,并通过线性插值的方式处理掉import numpy as npimport原创 2020-05-13 20:39:37 · 3147 阅读 · 0 评论 -
【Python】数据处理:分析沈阳PM指数年均变化情况(dropna()、groupby())
一、内容来源任务:分析处理天气数据,并计算出PM指数年均变化情况课程来源:大数据分析师(第一期)(学堂在线 北邮 杨亚)数据集分享:链接:https://pan.baidu.com/s/1nU29LEfrILve3-ERqccUTQ提取码:6ptf二、数据信息三、代码import numpy as npimport pandas as pdimport time#1 读取数据filename = 'ShenyangPM20100101_20151231.csv'#df = pd原创 2020-05-13 20:26:54 · 355 阅读 · 0 评论 -
【Python】爬取链家网页后的数据处理:北京房价排序(学堂在线 杨亚)
一、内容来源任务:将爬取获得的".json"文件转为".csv"文件,并进行数据处理课程来源:大数据分析师(第一期)(北邮 杨亚)前期步骤(数据获取):【Python】动态页面爬取:获取链家售房信息(学堂在线 杨亚)注意:本实例获取的数据为链家“北京二手房”前三页,若需更多数据,可修改前期爬取数据的代码二、数据变化过程1、".json"文件转为".csv"文件数据量大,可采用代码的方式转换。本实例采取网页方式转换:https://json-csv.com/2、原数据:3、按"|"拆分描原创 2020-05-13 19:59:30 · 942 阅读 · 0 评论 -
【Python】动态页面爬取:获取链家售房信息(学堂在线 杨亚)
一、内容来源任务:学会爬取一个网站的部分信息,并以".json"文件形式保存课程来源:大数据分析师(第一期)(北邮 杨亚)爬取网站:链家二手房 链家新房二、准备工作对于准备阶段,可参考:【Python】Scrapy入门实例:爬取北邮网页信息并保存(学堂在线 杨亚)1、创建工程在cmd.exe窗口,找到对应目录,通过下列语句创建工程scrapy startproject lianj...原创 2020-05-06 16:53:32 · 1482 阅读 · 0 评论 -
【Python】豆瓣电影TOP250数据规律分析(Pearson相关系数、折线图、条形图、直方图)
1、数据集预览部分数据说明:豆瓣排名num评分rating_num评分人数comment_num电影时长movie_duration2、查看电影数据集基本数据信息import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('电影排名.csv') #读取数据#1...原创 2020-04-29 18:25:29 · 7738 阅读 · 4 评论 -
【Python】Scrapy入门实例:爬取北邮网页信息并保存(学堂在线 杨亚)
内容来源任务:学会爬取一个网站的部分信息,并以".json"文件形式保存课程来源:大数据分析师(第一期)(北邮 杨亚)爬取网站:教学辅助单位-北京邮电大学项目基本流程概述:1.新建项目(scrapy startproject xxx):新建一个新的爬虫项目2.确定目标(编写items.py) :明确你想要抓取的目标3.制作爬虫(spiders/xxspider.py) :制作爬虫开始...原创 2020-04-29 15:48:08 · 1315 阅读 · 1 评论 -
【Python】网络爬虫与信息提取入门实例:爬取网页并保存(MOOC 嵩天)
内容来源中国大学慕课 北理工 嵩天老师Python网络爬虫与信息提取学习笔记步骤1:建立一个Scrapy爬虫工程1、通过下面的语句建立一个scrapy工程(注意路径位置):scrapy startproject python123demo2、scrapy工程层次图3、工程文件注解步骤2:在工程中产生一个 Scrapy爬虫在命令行中执行以下的语句,生成一个爬取“pyt...原创 2020-04-27 18:30:15 · 970 阅读 · 0 评论 -
【大数据】城市公交网络分析与可视化(四):绘制城市公交(地铁)线路图
1 采用循环法获取线路名怎么获取一个城市有哪些线路名?遍历前1000路公交。有遗漏怎么办?想指点区域怎么办?见后文的“读取文本”法。实际上遍历1000路公交基本能涵盖一个城市大多数公交线路,遗漏的很多也是一些特殊的路线。代码import requestsimport jsonimport pandas as pdimport redef Bus_inf(city,line):...原创 2020-03-15 19:24:03 · 16141 阅读 · 16 评论 -
【大数据】城市公交网络分析与可视化(六):对比分析不同城市公交的“非直线系数”
内容介绍求一个城市的公交的平均(非)直线系数,并结合系列博客前面所求得的公交线路的平均长度、平均站点数、平均站距,对比分析几个城市的基本公交平均数据。准备知识1、什么是“非直线系数”?(参考百度百科)非直线系数是指道路起讫点间的实际交通距离与两点间空间直线距离之比。能评价不同的路网型式和客货流路线集散点之间联系的便捷程度。非直线系数:①棋盘式路网1.2〜1.4。②放射性路网一般在2.6左右...原创 2020-03-15 20:34:13 · 8731 阅读 · 3 评论 -
【大数据】城市公交网络分析与可视化(五):获取公交平均路线长度、站点数、站距
内容简介也不前情提要了,本博客内容高度概括就是:通过直接遍历法和依据文本的法,获取一个城市公交的平均路线长度、平均站点数、平均站距(“直线系数”将在下一篇博客中讨论)正文1、获取公交信息练习代码(1)程序任务:通过高德地图PAI,爬取一个城市所有(可选)公交基本信息,并保存到表格中。采用循环遍历一定范围的数字实现,不封装函数(好处是,方便查看变量信息,及时发现错误,利于修改)(2)可直...原创 2020-03-15 19:35:19 · 5493 阅读 · 3 评论 -
【大数据】城市公交网络分析与可视化(三):获取公交站点信息并可视化站点重要程度
博客内容简介通过前面的探究,我们大体知道如何获取一个城市的公交数据,并绘制了公交行驶路径散点图(效果不是很理想)。其实散点图感觉更适合类似于绘制公交站点这样的信息(行驶轨迹有其他更好的绘制技巧),故本篇博客将整理之前爬取公交数据的代码,可视化相关公交站点信息,并透过可视化信息知道哪些站点是关键站点!和之前一样,本文依旧是基于青岛市来分析正文1、获取一个城市所有(可选)基本信息和公交站点信...原创 2020-03-15 19:20:11 · 9985 阅读 · 19 评论 -
【大数据】城市公交网络分析与可视化(二):获取公交行驶路径并绘制散点图
博客内容说明本博客为系列课题第二篇,一些必要的内容请见:【大数据】城市公交网络分析与可视化(一):借助Python爬取公交车行驶路径等基本信息具体探究过程运行环境:Anaconda 中的Spyder软件1、青岛市1路到10路公交运行路线(轨迹)(1)直接可运行代码确实有可能出现我这里运行的好好的,但他处不能运行的情况,emmmmm,祝你好运!import requestsimpo...原创 2020-03-15 19:16:05 · 7817 阅读 · 6 评论 -
【大数据】城市公交网络分析与可视化(一):基于Python爬取公交车行驶路径等基本信息
说明本文主要性质为代码分享类文章,以及考虑到个人最近精力有限,故不做知识点详细介绍!但可以告诉大家有哪些关键点:1、高德开放平台|高德地图API注册账号->获取Key(密钥Key是url中的一个关键参数,具体获取细节,但我把自己申请的密钥直接放到代码中了,所以不申请问题也不大)2、啥是API?API(Application Programming Interface,应用程序接...原创 2020-03-15 13:44:10 · 12406 阅读 · 21 评论