自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 资源 (1)
  • 收藏
  • 关注

原创 泰坦尼克号乘客生存情况预测分析之第三部分建模及模型评价

第三部分建模及模型评价前面两部分我们已经对泰坦尼克号的数据进行了一些处理,感兴趣的小伙伴可以看看前面两篇文章,本篇主要介绍预测分析的第三部分,也就是建模和模型评价。数据处理完了,接下来就来看看在默认参数的情况下,哪个模型预测准确率最高呢?废话不多说,直接开撸代码。【注意】关于数据集下载以及项目链接可以在公众号【数分小白龙】私信获取,或者在和鲸社区找到【经典案例之泰坦尼克号乘客生存情况预测分析】即可!!或者直接后台私信我,我看到后会发百度网盘链接哈!!1. 数据分离将经过特征工程处理.

2021-12-26 03:00:00 2076

原创 泰坦尼克号乘客生存情况分析之第二部分特征工程

继第一部分数据探索性分析,今天主要介绍下第二部分特征工程。原始数据肯定不能直接拿来分析,因为数据比较杂乱,就算分析的话,也得不到有价值的信息,所以需要进行数据处理,处理成我们想要的格式。

2021-12-25 12:07:41 1914

原创 泰坦尼克号乘客生存情况分析第一部分

最近想找个项目练练手,想到了泰坦尼克号这一经典案例,绝对干货,小伙伴们代码块撸起来!

2021-12-25 10:45:52 3704

原创 最近发文都在和鲸社区上,感兴趣的小伙伴可以跳转链接去看呀

刚入门对Pandas感兴趣的小伙伴,看这????:Pandas数据处理120题知识点总结 如果有想学习爬虫的小伙伴,看这????:零基础入门Python爬虫--豆瓣、58同城、安居客等经典数据分析案例,看这????​​​​​​​:坦尼克号乘客生存情况预测分析 和鲸社区主页链接:【和鲸社区:wlong】由于最近任务有点重,所以更新的话,可能会稍微有点慢,同时也在不断学习新的内容,如果有更新的话,暂时都在和鲸数据科学社区上,肯定都是...

2021-06-26 22:09:42 1567

原创 Python零基础编程【76-100】题

本专栏主要涉及到100道Python零基础编程题,大部分题型翻译于Github上的100+ Python challenging programming exercises,如果小伙伴对于英语没有阅读障碍,可以去Github上阅读。专栏共有100题,分为四章,每章25道题;本篇博客为Python零基础编程的第四篇【76-100】;好了,废话不多说,开始展开;第一篇:Python零基础编程【1-25】题第二篇:Python零基础编程【26-50】题第三篇:Python零基础编程【51-75】题

2021-06-07 15:26:23 747

原创 Python零基础编程【51-75】题

本专栏主要涉及到100道Python零基础编程题,大部分题型翻译于Github上的100+ Python challenging programming exercises,如果小伙伴对于英语没有阅读障碍,可以去Github上阅读。专栏共有100题,分为四章,每章25道题;本篇博客为Python零基础编程的第三篇【51-75】;好了,废话不多说,开始展开;第一篇:Python零基础编程【1-25】题第二篇:Python零基础编程【26-50】题第三篇:Python零基础编程【51-75】题第

2021-06-07 15:13:15 1141 1

原创 Python零基础编程【26-50】题

本专栏主要涉及到100道Python零基础编程题,大部分题型翻译于Github上的100+ Python challenging programming exercises,如果小伙伴对于英语没有阅读障碍,可以去Github上阅读。专栏共有100题,分为四章,每章25道题;本篇博客为Python零基础编程的第二篇【26-50】;好了,废话不多说,开始展开;第一篇:Python零基础编程【1-25】题第二篇:Python零基础编程【26-50】题第三篇:Python零基础编程【51-75】题第

2021-06-07 14:56:29 932

原创 Python零基础编程【1-25】题

本专栏主要涉及到100道Python零基础编程题,大部分题型翻译于Github上的100+ Python challenging programming exercises,如果小伙伴对于英语没有阅读障碍,可以去Github上阅读。专栏共有100题,分为四章,每章25道题;好了,废话不多说,开始展开; 众所周知,Python 是一门开源免费、通用型的脚本编程语言,它上手简单,功能强大,坚持「极简主义」。Python 类库(模块)极其丰富,这使得 Python 几乎无所不能,不管是传统的 Web 开...

2021-06-07 14:35:46 2976 1

原创 Python之爬取百度地图兴趣点(POI)数据

关于爬虫系列,前三篇文章分别讲了三个简单案例,分别爬取了《你好,李焕英》电影豆瓣热门短评、58同城在售楼盘房源信息以及安居客网二手房小区详情页数据,这篇文章主要谈一谈如果用Python调查百度地图API接口,获取百度地图上的兴趣点(Point of interest)。...

2021-06-05 17:28:55 22335 23

原创 ArcGIS基于爬虫数据绘制人口分布密度图

上一篇文章写到如何利用ArcGIS创建渔网并导出中心质点经纬度,感兴趣的小伙伴可以点击链接去查看哦!这篇文章来点不一样的,也是我感觉挺有意思的,就是利用ArcGIS绘制一种与众不同的人口分布密度图;在学习本文内容之前呢,小伙伴们首先得会利用ArcGIS创建渔网,需要上一篇基础上...

2021-06-04 21:39:48 8232 1

原创 ArcGIS10.5 创建渔网并导出中心质点经纬度

这篇博客简单记一个小知识点,关于Python读取文件,今天正好听到老师提了一下;1. 普遍读取CSV文件 —— Pandas

2021-05-29 18:39:38 11943 17

原创 Python之获取中国各地区矢量地图数据(shp格式)

小伙伴们,大家好,这篇博客主要讲解下Python如何获取中国各地区矢量地图数据,为什么突然写这个呢?具体原因可以见我另一篇博客ArcGIS创建渔网;好了,废话不多说,开始展开!如果小伙伴们要做与地图相关的研究,比如说绘制专题地图、对某区域划分格网等等,必然会用到shp格式的矢量地图数据,这是必不可少的。那么如何获取矢量地图数据呢,在这里主要参考了B站上一位大佬的文章,具体链接见下,本文也是再其基础上加些自己的总结;参考资料:全国shp文件自动生成(python)这篇文章谈到了两种获取json

2021-05-27 23:25:08 7870 1

原创 ArcGIS之修改图层要素名称

由于ArcGIS创建渔网那篇文章篇幅较长,所以将这一小知识点单独拿出来,目的主要为了讲解下ArcGIS如何修改图层要素名称;1. 导入shp格式的矢量地图接着选址研究问题,我主要以石家庄市四个主要繁华区为研究区域,将生成的shp文件直接拖入ArcGIS中,结果如下图;2. 编辑图层要素名称为了方便查看每个区域都是哪个区,这里需要修改下图层要素,将每一个区域标注出来;步骤:右键图层 --【编辑要素】 -- 【开始编辑】 -- 选择某个区域-- 右键 --【属性】-- 更改右边属性框n.

2021-05-27 22:48:11 13832 1

原创 Python之爬取安居客网二手房小区详情页数据

哈喽,小伙伴们,前两篇博客案例基本上将爬虫基础流程介绍的差不多了,这篇博客开始放重磅炸弹,难度系数上升一些(难度1:涉及二级页面爬取,难度2:共爬取17个字段)。本文的主要内容:以石家庄市为例,爬取安居客网二手房小区的详情页的相关字段信息,关于二手房小区首页信息的爬取这里就不作过多介绍,因为与上一篇博客(Python爬取58同城在售楼盘房源信息)的爬虫步骤基本一致,感兴趣的小伙伴可以去看下呀。好了,废话不多说,开始展开~首先,我们先打开安居客官方网站,设置好两个筛选条件:石家庄市、二手房小区(这个根据小

2021-05-23 11:12:27 15236 30

原创 Python常见错误:ValueError: If using all scalar values, you must pass an index

今天再用字典创建数据框时报错,代码如下,报的错误是ValueError: If using all scalar values, you must pass an index;import pandas as pddata = {'数学':90, '英语':70, '语文':80}df = pd.DataFrame(data)df1. 报错原因:直接传入标称属性为value的字典需要写入index,也就是说,需要在创建DataFrame对象时设定index。2. 解决方法:(四种

2021-05-21 21:26:53 17243 3

原创 Python之爬取58同城在售楼盘房源信息

上一篇博客以爬取《你好,李焕英》豆瓣热门短评来作为爬虫入门小案例,这一篇博客主要以石家庄市为例,爬取58同城在售楼盘房源信息,主要包括以下字段:小区名称,所在区,地址以及均价等,总体来说,难度系数不大,算是入门级第二个小案例,废话不多说,让我们一起去看看把;从58同城石家庄市新房首页可以看出,总共显示696个楼盘,但是有些楼盘并不是在售状态,售价还没公布,所以为了数据爬取完整,增加两个筛选条件(在售,住宅),如下图所示。从图中可以看到,筛选后满足条件的楼盘共有221个,每页有60个楼盘,一共需要爬取4页

2021-05-20 12:02:54 6323 5

原创 Python之爬取《你好,李焕英》电影豆瓣短评

2021年春节档热播电影《你好,李焕英》,拿下累计票房54.12亿,一路杀进中国票房榜前五,堪称票房黑马。今天就以《你好,李焕英》这部电影为例,利用Python中的Xpath爬取其豆瓣短评,爬取的字段主要有:评论者、评分、评论日期、点赞数以及评论内容。该案例难度系数不大,刚好作为入门案例,废话不多说,让我们一起去看看吧!注:虽然在短评首页显示《你好,李焕英》共有41万多条短评,但是当浏览时,却发现只能查看前25页的短评,也就是说用户只能看到500条短评评论。发现这个问题后,查阅了一些相关资料,原来是

2021-05-16 12:29:03 10068 20

原创 Python之反爬虫手段(User-Agent,Cookie,Referer,time.sleep(),IP代理池)

现在的爬虫越来越难,各大网站为了预防不间断的网络爬虫,都相应地做出了不同的反爬机制,那么如何能够在不被封IP的情况,尽可能多得爬取数据呢?这里主要介绍到一些通用的反爬措施,虽然不一定适合所有网站,但是大部分网站的爬取,个人认为还是可以的。本文主要介绍到User-Agent,Cookie,Referer,time.sleep()设置睡眠间隔,ProxyPool之IP池的搭建,小伙伴们各取所需!由于后续爬虫案例都默认自带这些反爬技术,所以这里就统一详细介绍下,后续案例就不再过多涉及,废话不多说,开始展开!

2021-05-15 14:40:50 6578 13

原创 Python之Xpath爬虫基础解析

在爬虫中,数据解析方法有很多中,比如正则表达式、bs4、Xpath、pyquery等,这个专栏所涉及到的爬虫主要以Xpath为主。Xpath解析:最常用且最便捷高效的一种解析方式,通用性强。1. Xpath解析原理(1)实例化一个etree对象,且需要将被解析的页面源码数据加载到该对象中;(2)调用etree对象中的Xpath方法结合Xpath表达式实现标签的定位和内容的获取。2. 环境的安装pip install lxml3. 实例化一个etree对象(两种情况:本地与网站)

2021-05-14 22:39:07 1416

原创 评价指标之准确率、精确率、召回率、F1值

机器学习问题中,通常需要建立模型来解决具体问题,但对于模型的好坏,也就是模型的泛化能力,如何进行评估呢?这就需要定义一些评价指标,来度量模型的优劣。比如准确率(accuracy)、精确率(precision)、召回率(recall)、F1值(F1 score)、ROC、AUC等指标。而这些评价指标直接或间接都与混淆矩阵有关,前四者可以从混淆矩阵中直接计算得到,AUC值则要通过ROC曲线进行计算,而ROC曲线的横纵坐标又和混淆矩阵联系密切。1. 混淆矩阵TP、FP、FN、TN可以理解为:T

2021-05-14 17:34:27 4376

原创 Python忽略警告(warning)

使用Jupyter notebook编写Python代码时,总会时不时因为版本、部分库更新等原因出现warning,影响代码的整体美观,那么如何让warnings不显示呢?这就需要导入warnings包,具体只需加入如下两行代码,即可去除warnings警告!import warningswarnings.filterwarnings("ignore")...

2021-05-05 10:11:02 7375

原创 Python设置数字格式:小数位数、百分号、千位分隔符

1.设置小数位数# 方法一:使用round()函数df.round(decimals=3)# 方法二:使用自定义函数 + %.2fdf['data'].map(lambda x : ('%.2f')%x)# 但是经过自定义函数处理过后的数据已经不再是float。如需后续计算的话需要先做变换;、# 方法三:df['data'].map(lambda x : format(x, '.2f'))2.设置百分数# 自定义函数+格式化处理df['data'].map(lambda..

2021-05-04 16:35:00 6332 2

原创 八、其他知识点

1 布林指标: 布林线(Boll)指标是股市技术分析的常用工具之一,通过计算股价的“标准差”,再求股价的“信赖区间”。该指标在图形上画出三条线,其中上下两条线可以分别看成是股价的压力线和支撑线,而在两条线之间还有一条股价平均线,布林线指标的参数最好设为20。一般来说,股价会运行在压力线和支撑线所形成的通道中。### 第一步:计算布林指标 ####第一步:计算MAN = 20 #布林线指标的参数最好设为20MA = data['收盘价(元)'].sum()/N#第二步:计算标准差...

2021-05-04 16:32:15 641

原创 七、数据的读取与保存

1 读取excel文件:pd.read_excel('./data/xxx.xlsx')2 读取csv文件:pd.read_csv()(1)读取前10行某两列数据:pd.read_csv('data1.csv', encoding='gbk', usecols=['positionName', 'salary'], nrows=10)(2)读取数据并在读取数据时将'xxx'列大于10000的为改为高:pd.read_csv('data2.csv', converters={'薪

2021-05-04 15:51:39 476

原创 六、数据(分组)计算

1 常用统计函数:df['xxx'].mean() # 均值df.mean().mean() # 全体平均数df[xxx'].median() # 中位数df[xxx'].var() # 方差df[xxx'].std() # 标准差max(),min() # 最大(小)值2 diff()函数:计算上下行差值:# 方法一:Series.diff()df['xxx'].diff()# 方法二:shift(1)diff = df['xxx'] - df['xxx'].shift(

2021-05-04 15:45:18 1160

原创 五、数据处理

1 缺失值判断/填充/设置/删除:(1)判断缺失值:# 检查数据中是否含有任何缺失值:df.isnull().values.any()# 查看每列数据缺失值:df.isnull().sum()# 查看每列非缺失值数:df.notnull().sum()df.shape[0] - df.isnull().sum()(2)缺失值填充:# 用上下平均值填充:df['xxx'] = df['xxx'].fillna(df['xxx'].interpolate())# df .

2021-05-04 11:15:23 693

原创 四、提取满足条件的行列

1 提取具体单行列,多行列数据:(1)提取单行数据:df.loc[32]df.iloc[32,:]df.iloc[32](2)提取单列数据:df[['xxx']](3)提取多列数据:#1.提取xxx1, xxx2, xxx3列数据:df[['xxx1', 'xxx2', 'xxx3']]#2.提取除倒数后三列之外的全部列数据:df.iloc[:, : -3](4)提取第一列位置再1,10,15的数字:#方法一:df.iloc[[1, 10, 15], 0

2021-05-04 10:55:58 2001

原创 三、 数据框行列更改

1 设置索引:df.set_index('xxx')2 重置索引(行号):df.reset_index(drop = True, inplace = True) # drop = True:原有索引就不会成为新的列3 更改列名:#方法一:直接法df.columns = ['col1', 'col2', 'col3']#方法二:(使用rename()函数:修改指定修改某列或某几列名字)df.rename(columns={'0':'col1', '1':'col2', '2'

2021-05-04 10:35:59 615

原创 二、查看数据基本信息

(1)查看前(后)x行数据:#前x行:df.head(x)#后x行:df.tail(x)df.iloc[-x:, :](2)查看所有列名:df.columns(3)查看数据行列数:df.shape(4)查看行数:#方法一:df.shape[0]#方法二;len(df)(5)查看列数:#方法一:len(df.columns)#方法二:df.shape[1]#方法三:df.info()(6)查看索引、数据类型和内存信息:df.inf

2021-05-04 10:18:41 1129

原创 一、创建DataFrame及Numpy基础操作

1. 创建DateFrame:(1)字典法:data = {"grammer":['Python', 'C', 'Java', 'GO', np.NaN, 'SQL', 'PHP', 'Python'], "score":[1.0, 2.0, np.NaN, 4.0, 5.0, 6.0, 7.0, 10.0]}df = pd.DataFrame(data)df(2)Series:pd.DataFrame(pd.Series(np.random.randint(1, 10

2021-05-04 10:04:00 5397

知网情感分析常用词语库.rar

《知网》情感分析常用词语集,(包括情感、评价、程度级别、主张词语)分正负面以及中英文

2021-06-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除