数据分析
文章平均质量分 72
_yuan20
这个作者很懒,什么都没留下…
展开
-
使用paddlepaddle 进行人脸识别
数据获取数据集使用python库因为实在百度的AI studio平台用的,那个平台不能用pytorch与tensorflow,只能用paddlepaddle,所以本代码使用paddlepaddle。简单介绍paddlepaddle以下简称paddlepaddle与tensorflow等用法大致一样,paddle也是用tensor作为数据使用的。paddle使用方法分为python世界与paddle世界,两个世界的数据不互通,但是两个世界有接口进行数据传输。本代码的工作流程1.数据准备,数据原创 2021-07-02 10:20:20 · 4614 阅读 · 0 评论 -
五种模型(支持向量机,随机森林,线性回归,多项式回归,岭回归)对新型冠状病毒的历史数据进行预测
数据来源上篇文章对新型冠状病毒的数据进行了爬取,本文利用爬取到的数据进行一些数据分析。爬虫教学连接本文使用的jupyter进行数据分析(2021年1月1日到4月14日的数据其中,4月12到4月14日的数据用于预测与模型评估(均方误差作为评价标准))知识预备python的基本操作语句python的库numpypandasmatplotlib五种模型的思想与sklearn库的五种模型的调用。升级思路可以爬中国各个省市的数据然后绘制空间图。空间图绘制方法:首先进行经纬度匹配:可以参考原创 2021-07-01 10:18:34 · 4567 阅读 · 4 评论 -
爬取新型冠状病毒的历史数据
网站选择首先我看了下,腾讯的数据并不是很全,只有一天的,或者说我技艺不精,没发现其他的数据,后来观察了很久,发现丁香医生的数据有各个国家的历史数据,因此选用丁香医生的网址进行爬取丁香医生网址观察网站结构在getListByCountryTypeService2true栏中有各个国家的当前感染人数的数据,其中statisticsData中的.json文件里含有各个国家的历史数据。同样fetchRecentStat里面也有中国各个省市的历史数据(我只爬了国家的,其实原理一样,稍微改一下即可)知识原创 2021-07-01 09:39:05 · 2480 阅读 · 8 评论 -
对天津市房价的情况进行空间分析和时间预测
爬虫天津链家二手房数据(requests + BeautifulSoup)匹配已得地理位置的经纬度利用QGIS作空间图并获得投影坐标和路网密度分析天津市房价的空间因素影响利用ARIMA模型对房价进行预测数据报告等...原创 2021-03-12 11:11:20 · 280 阅读 · 0 评论 -
利用ARIMA模型对房价进行预测
ARIMA模型我理解也不是太好,建议大家学习的话去B站搜一下ARIMA找个视频看就可以了,我这个代码在jupyter是跑通的,如果有问题可以按照方格放入jupyter跑#!/usr/bin/env python# coding: utf-8# In[2]:get_ipython().run_line_magic('load_ext', 'autoreload')get_ipython().run_line_magic('autoreload', '2')get_ipython().run_原创 2021-03-12 10:59:22 · 2552 阅读 · 0 评论 -
分析天津市房价的空间因素影响
# -*- coding: utf-8 -*-"""Created on Thu Mar 4 16:23:30 2021@author: 89344"""import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings('ignore')from bokeh.plotting import figure,show,output_file原创 2021-03-12 10:51:12 · 237 阅读 · 1 评论 -
利用QGIS作空间图并获得投影坐标和路网密度
首先工具用的QGISQGIS2(当前QGIS官方版本是QGIS3 ,2已经停止维护,直接用3也是可以的,功能也一样,可能某些功能不太好找而已)数据包是天津shp文件进入后新建项目,点击右下角将WGS84坐标转换为投影坐标,慢慢找即可再通用里面可以设置一下背景颜色左上角文件页面找到天津市县界,拖进来在左下角双击点开刚刚添加进来的图层,在样式里可以调一下颜色4. 在左下角选择刚刚添加进来的图层,右键另存为,将坐标系更换为投影坐标系选择矢量网络选择刚刚转换完坐标的图层,点击原创 2021-03-12 10:46:48 · 1910 阅读 · 1 评论 -
匹配已得地理位置的经纬度
数据经纬度匹配我的数据是从链家网爬下来的数据,可以参考我的爬虫文章爬虫天津链家二手房数据(requests + BeautifulSoup)其实链家有自己的经纬度,但是可能是网站加密的缘故,由于我技术有限,无法得到,就借助与高德API进行经纬度匹配首先先去高德开发平台注册个账号(每天免费6000条,如果实名认证的话每天免费30w条数据,足够用了)注册之后再应用界面创建新应用名字随便写,没有什么问题建好的应用选择添加选择web服务之后我们就利用这个key来调高德API进行经纬度匹配imp原创 2021-03-12 10:00:37 · 1103 阅读 · 0 评论 -
爬虫天津链家二手房数据(requests + BeautifulSoup)
爬取天津链家各个房屋的数据数据量很多,建议先改一下试一试在完全爬下来。# -*- coding: utf-8 -*-"""Spyder EditorThis is a temporary script file."""#导包import reimport requestsimport pandas as pdfrom bs4 import BeautifulSoupfrom datetime import datetimefrom requests.packages.urlli原创 2021-03-12 09:47:08 · 765 阅读 · 2 评论 -
ARIMA模型predict()预测报错ValueError: could not broadcast input array from shape (0) into shape (1)
ARIMA预测模型的predict有个要求就是预测时间的起点必须在训练集内部,否则就会报错ValueError: could not broadcast input array from shape (0) into shape (1)训练集仅仅到了2021年2月16日而预测代码pred = result.predict('20210305','20210309',dynamic = True)#pred = result.predict('20210216','20210308',dynamic原创 2021-03-10 18:50:07 · 2208 阅读 · 0 评论 -
未来就业城市选择问题(python 数据分析,数据可视化)(文档+代码+数据+PPT+注释)
未来就业城市选择问题分析项目文档目录目录 21数据来源 32理论基础 33算法流程 33.1中国城市资本流动探索 33.1.1数据预处理 33.1.2查看全国城市控股型投资关系 43.1.3 2013-2016年全国跨城市资本流动情况 43.1.4 深度探索跨城市资本流动 43.2全国各省市平均房价问题研究 44实验结果 54.1中国城市资本流动探索 54.1.1查看全国城市控股型投资关系 54.1.2 2013-2016年全国跨城市资本流动情况 74.1.3 深度探索跨城市原创 2020-12-11 20:22:03 · 1751 阅读 · 1 评论 -
knn.predict()报错 Expected 2D array, got 1D array instead: array=[18 90]. Reshape your data either usi
代码如下 .Knn最近邻算法模拟import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlineimport warningswarnings.filterwarnings('ignore') data = pd.DataFrame({'name':['北京遇上西雅图','喜欢你','疯狂动物城','战狼2','力王','敢死队'], 'fight'原创 2020-11-19 16:19:26 · 715 阅读 · 0 评论 -
拉格朗日插值法,python报错‘Passing list-likes to .loc or [] with any missing labels is no longer supported, se
代码如下data = pd.Series(np.random.rand(100)*100)data[3,6,33,56,45,66,67,80,90] = np.nandata.reindex()print(data.head())data_na = data[data.isnull()]print('缺失数据占比 %.2f%%' % (len(data_na)/len(data)*100))data_c = data.fillna(data.median())fig, axes = pl原创 2020-11-17 21:06:20 · 2271 阅读 · 1 评论