自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

会飞的大象

数仓,Python,爬虫

  • 博客(135)
  • 资源 (4)
  • 问答 (7)
  • 收藏
  • 关注

原创 【pandas小记】pandas中易混淆的描述性统计

以下几种pandas描述性感觉容易混淆,记录下1,pandas.DataFrame.countDataFrame.count(self, axis=0, level=None, numeric_only=False)#统计为每列或每行非NA数# 参数"""axis : {0 or ‘index’, 1 or ‘columns’}, 默认为 0level : int 或 str, 对...

2020-03-01 23:04:39 298

原创 【Oracle】PL/SQL中的引用数据类型和复合数据类型

-- 在enameList末端添加一个空元素

2020-02-25 17:03:08 1461

原创 【pandas小记】pandas中 map、apply、applymap和transform详解

(一)pandas.Series.mapSeries.map(self, arg, na_action=None)"""根据输入对应关系映射序列值,用于用另一个值替换序列中的每个值。map()是Series对象的一个函数,DataFrame中没有map(),map()的功能是将一个自定义函数作用于Series对象的每个元素注意:Series对象、映射、替换、每个值"""#参数"...

2020-02-21 16:46:50 1678 3

原创 【pandas小记】pandas日期类型数据处理

https://www.jianshu.com/p/0b8dcbc2df33https://www.jianshu.com/p/93734eeed9b3https://www.cnblogs.com/wuzaipei/p/10122138.html

2020-02-19 12:26:52 1986

原创 【pandas 小记】pandas 读写xml文件

import xml.etree.ElementTree as ETimport pandas as pddef iter_records(records): """ 遍历每个节点的生成器 :param records: :return: """ for record in records: temp_dict = {} #...

2020-02-17 22:49:44 9257

原创 【Python】numpy方法合辑-数组查询定位

(一)argmaxnumpy.argmax(a, axis=None, out=None)# 返回沿轴的最大值的索引#3在多次出现最大值的情况下,返回对应于第一次出现的索引。# 参数"""a:数组axis=None:默认情况下,将数组展平成一维数组,然后返回最大值的索引"""#demoarr = np.arange(9).reshape(3, -1)print(arr)...

2020-02-17 22:20:48 3240 1

原创 【Python】numpy方法合辑-数组组合、拆分

一,数组组合(一)concatenatenumpy.concatenate((a1, a2, ...), axis=0, out=None)#参数"""(a1, a2, ...):数组序列(元组,列表等),除了与axis对应的维度之外,数组其他维度数值相等。axis=0:轴向,默认 0"""# demoarr1 = np.arange(9).reshape(3, -1)a...

2020-02-17 22:02:26 1234

原创 【Python】numpy方法合辑-数组重塑

(一)reshapenumpy.reshape(a, newshape, order='C')#在不更改数据的情况下为数组提供新形状#注意:根据order决定返回视图 or 副本,order 与原数组一致,则返回视图,否则返回副本# 参数"""newshape:新形状的定义,int或int的元组 如果是整数,则结果将是该长度的一维数组。一个形状维度可以是-1。在这种情况下,将根据数...

2020-02-14 16:07:39 587

原创 【Python】numpy方法合辑-排序方法

【Python】numpy方法合辑-排序方法(一)sort#返回原数组排序后的副本numpy.sort(a, axis=-1, kind=None, order=None) #返回重排序的原数组ndarray.sort(axis=-1, kind=None, order=None)# 参数"""axis:默认值是-1,沿最后一个轴排序。数组排序时的基准,axis=0 沿着列方向,...

2020-02-13 16:55:16 788

原创 【Python】numpy广播机制

【Python】numpy广播机制一,简介当两个数组的形状并不相同的时候,我们可以通过扩展数组的方法来实现相加、相减、相乘等操作,这种机制叫做广播(broadcasting)。二,规则网上和书上都有对规则的描述,看到最多的有以下两种第一种:让所有输入数组都向其中形状最长的数组看齐,形状中不足的部分都通过在前面加 1 补齐。输出数组的形状是输入数组形状的各个维度上的最大值。如果输入...

2020-02-08 11:10:33 1025

原创 【pandas 小记】Series 转换成 DataFrame

【Python】Pandas Series 转换成 DataFrame

2020-01-05 10:02:40 5063

原创 【pandas小记】pandas中的“标签”索引 与 “整数”索引

【Python】Pandas中的“标签”索引 与 “整数”索引一,索引pandas在构建Series和DataFrame时都会创建一个索引序列,类似于标签标示每个数据,不同的是,DataFrame会有行索引和列索引。注意,这里的索引类似于标记key,通过这个key可以定位到对应的value,也可以看做一个字典In [93]: obj = pd.Series(np.arange(1,5),in...

2020-01-01 14:34:12 3443

原创 【Python】NumPy 中 ravel() 正确打开方式

【Python】NumPy 中 ravel() 正确打开方式最近在看书时,对numpy的ravel()的有些疑惑,书上这样写到“如果结果中的值在原始数组中是连续的,则ravel 不会生成底层数值的副本”,度娘后,发现大部分的说法都是得到原数组的视图,但是按照书上的说法,是可以产生副本的,只要结果的值在原始数组中不连续。刚开始不太理解,这里所谓的连续是指什么?后来发现,这个连续是指的是元素顺序,...

2019-12-24 22:56:28 10390 5

原创 【Python】Numpy 与 标准python中的=,视图(浅拷贝),深拷贝

【Python】Numpy 与 标准python中的赋值,视图(浅拷贝),深拷贝1,赋值2,视图(浅拷贝)3,深拷贝

2019-12-23 22:38:10 258

原创 【Oracle】常用、实用的SQL脚本(持续更新)

【Oracle】常用、实用的SQL脚本(持续更新)受到一篇知乎文章启发,决定将之前用到和看过的一些SQL脚本收集下,这些脚本在工作中都比较实用,并且也常用到。脚本都是针对Oracle的。先创建几个用来举例的表,并插入些数据CREATE table sqltest(id int,name varchar(20),quarter int,cum int)insert into sqltest...

2019-12-03 08:21:36 2108 1

原创 【Oracle】关于索引的那些事

【Oracle】关于索引的那些事关于索引的理解,举一个不是很恰当的例子,如果要在英汉字典查询‘index’,可以从第一页开始往后翻,一页一页查,知道查询到‘index’,也可以根据字典目录快速找到‘index’所在页码,直接查到,相比之下,第二种方法更加快速,而索引起到的作用就跟第二种方式中的目录相似。索引的关键在于通过一组排序后的索引键来取代默认的全表扫描检索方式,从而提高检索效率。当索引一旦...

2019-11-27 11:39:45 232

原创 【Python】Flask上部署Echart关系图

【Python】Flask上部署Echart关系图

2019-11-25 21:25:13 1324

原创 【Python】爬取贝壳网深圳二手房数据

【Python】爬取贝壳网深圳二手房数据一,爬取数据1,爬取目标内容先打开页面https://sz.ke.com/ershoufang/ ,看下页面的结构,分页的列表页,点击就可以跳转到对应的详细页面,有详细的二手房信息。主要爬取编号、户型、楼层、朝向、面积、单位面积房价、总价、小区名称、所在区域以及URL。2,爬起思路贝壳网二手房都是这种分页的形式,总共100页,每一页的列表有...

2019-10-31 22:41:51 11763 118

原创 【Python】模拟登陆房天下的总结

【Python】requests模拟登陆房天下的总结最近想爬取些与房价有关的数据,看了几个网站,感觉房天下包含的内容比较多,于是,先对房天下入手。为了保证后面数据爬取,想先模拟登陆获取cookies,维护一个cookies池来用,后续的爬取直接带cookies请求。一,常规操作...

2019-10-10 23:25:43 758 2

原创 【Python】爬取2019年男篮世界杯数据,并可视化

【Python】爬取2019年男篮世界杯数据,并可视化本届男篮世界杯已经结束,本届比赛最让人失意的还是中国和美国两支队伍,一个本来以为可以小组出线,结果要去打奥运落选赛,另一个本来以为最起码进四强的,结果要去打7-8名排位赛。不过也有出乎意料的队伍,阿根廷和西班牙,这两支队伍辉煌的老一辈球员基本都没参赛,都是依然打到了决赛,强队底蕴一直都在,年轻球员也很给力。这个中国队真的可以取取经。话不多说,...

2019-09-16 22:30:08 2472 2

原创 【Python】爬取中国历史票房榜,可视化分析

【Python】爬取中国历史票房榜,可视化分析最近电影《哪吒之魔童转世》票房已经超过《流浪地球》,《复联4》。升到中国内地票房第二位。就好有哪些电影排进了历史票房前100,写了简单爬虫,爬取数据并数据可视化。一,爬取思路F12研究了下,通过ajax请求,返回json数据,所以可以模拟ajax请求,然后再解析得到的json数据就行了。除此之外,在内容页面中还可以爬虫到演员和导演。二,...

2019-09-03 22:05:45 2761 3

原创 【Python】爬虫:微博找人页面爬虫(四)

【Python】爬虫:微博找人页面爬虫(四)

2019-08-25 22:41:34 1907 5

原创 【Python】爬虫:微博找人页面爬虫(三)

【Python】爬虫:微博找人页面爬虫(三)在解决完登录问题后,就来开始下载页面来进行解析,之前提到过有两种类型的页面:列表页和文章页,列表页包含文章页的url和下一页列表页的url,也就是只有先下载解析列表页后才可以对文章页进行下载解析。因此就构建了两个不同等级的url队列,通过redis的list来构建,高优先级的存储列表页url,低优先级存储文章页url。、一,构建url队列二,url...

2019-08-21 21:35:05 585

原创 【Python】爬虫:微博找人页面爬虫(二)

【Python】爬虫:微博找人页面爬虫(二)https://www.cnblogs.com/woaixuexi9999/p/9404745.html

2019-08-14 22:17:32 2530

原创 【Python】爬虫:微博找人页面爬虫(一)

【Python】爬虫:微博找人页面爬虫(一)最近想通过爬去微博上大V信息来做爬虫练手,于是,在微博-找人页面,看到有许多分类,并且里面都是些大V,页面:https://d.weibo.com/1087030002_417#上面有许多分类,所以想爬取从明星后的所有分类,共有50个大类,每个大类下有各自的小类,这次就按大类进行爬取。每种大类下面,都包含一定数量的列表页,有的分类下面是空的,不...

2019-08-11 11:09:34 3613

原创 Oracle与MySQL迁移语法兼容

Oracle与MySQL迁移语法兼容最近项目上使用Oracle的系统,需要兼容MySQL,原本使用到的SQL语法需要修改以兼容到MySQL。先记录下目前遇到的问题,后续会继续更新。1,Oracle NVL()这个函数用的比较多,功能就是从两个表达式返回一个非 null 值,MySQL:IFNULL(expr1,expr2),也有相同功能如果第一个参数的表达式 expression 为 N...

2019-06-20 15:35:36 1409

原创 【Kettle】Kettle增量抽取模型

【Kettle】Kettle增量抽取模型在日常的ETL过程中,常会使用用增量抽取数据,有一个简单,通用的增量抽取模型,便可以开发效率,并统一开发规范,该模型是基于时间戳的增量方式,并且有etl_logs记录抽取情况,并且具有一定的容错性。一,抽取日志表表字段Id:表IDtableName:表名min_date:最小更新时间,初始值 1980-01-01 00:00:00max_dat...

2019-06-16 11:48:23 2455

原创 【Python】爬虫:图形验证码识别(二)

【Python】爬虫:图形验证码识别(二)上一篇博文中对100张验证码的识别率为43%,那么该如何提高识别率呢?也是就是如何让计算机可以准确识别图片里的文字内容?其实识别的过程,与我们识别图片的过程是类似的,一张无码高清图,并且教会你识别里面的内容,那么你一定可以一眼就识别出图片里的文字。所以可以通过以下两种方式,提高图片文字的识别率:1,提高图片清晰度,也就是祛除图片上无关的干扰点,高级词...

2019-05-29 21:28:49 2059

原创 【Python】爬虫:图形验证码识别(一)

【Python】爬虫:图形验证码识别(一)一, tesseract 安装,以及相关库安装二, 举个例子,demo

2019-05-22 23:05:56 4000

原创 【Python】爬虫:Selenium使用总结

【Python】爬虫:Selenium使用总结一,安装selenium库,安装ChromeDriver(一)安装selenium库使用国内镜像安装,cmd窗口安装pip3 install selenium -i -i https://pypi.douban.com/simple (二)安装ChromeDriver首先,先确定Chrome的版本,右上角三个点–》帮助–》关于Google...

2019-05-06 21:49:37 591

原创 【Python】爬虫解析利器:XPath

【Python】爬虫解析利器:XPath一,常用规则1,选取节点表达式功能描述nodename选取此节点的所有节点/从当前节点选取直接子节点//从当前节点选取选取子孙节点.选取当前节点…选取当前节点的父节点@选取属性2,运算符3,轴4,功能函数二,示例代码引入lxml库from lxml import etree...

2019-04-22 22:08:08 304

原创 【Python】文件处理总结

【Python】文件处理总结一,文件简介二,文件操作三,文件属性四,os模块

2019-04-13 21:20:22 1607

原创 【Python】正则表达式总结

【Python】正则表达式总结一,re模块二,正则表达式语法

2019-03-31 12:22:18 665

原创 【Python】浅析闭包与装饰器

【Python】浅析闭包与装饰器前言在此之前,需要认清以下几点:1,变量可以指向一个函数。>>> f = abs #变量f指向abs>>> f<built-in function abs>>>> f(-1)12,函数名是指向函数的变量。>>> abs = len #abs 指向函数len。...

2019-03-19 22:29:41 146

原创 【FineReport】下拉框与复选框之间参数联动

【FineReport】下拉框与下拉复选框之间参数联动描述1,CLASSNO下拉框可以选择班级,STUDENTNO复选框可以选择该班级的学生,可全选或者不选。2,当不选CLASSNO时,复选框可显示全部学生,可全选或不选。实现Demo 使用FineRepor自带的数据表:Stscore表1,创建数据集,创建两个数据集:第一个数据集查询所有字段。SELECT * FROM STS...

2019-03-16 09:47:09 12507 15

原创 【Python】 根据正则表达式随机生成满足条件的字符串

【Python】 根据正则表达式随机生成满足条件的字符串编写了正则表达式,想测试正确性,在线测试但是不一定能测得很全面,于是直接根据正则表达式随机生成字符串作为测试数据,可以快速校验是否正确。使用xeger安装xegerpip install xeger随机生成满足条件的字符串from xeger import Xeger_x = Xeger()for i in range(20...

2019-01-02 22:57:44 7337 1

转载 【Python】字符串格式化

【Python】字符串格式化1, % 格式化使用字符串格式设置运算符:%。类似于prinf(&quot;%s&quot;,str)。# 使用单个值(如字符串或数字)str1 = 'Hello world!' print('%s' % str1) #Hello world!num = 199.12print('%.1f' % num) #199.1使用元组(如果要设置多个值的格式)...

2018-11-25 22:48:43 262

转载 【Python】 With 语句

【Python】 With 语句要确保文件得以关闭,可使用一条try/finally语句,并在finally子句中调用close。# 在这里打开文件try:# 将数据写入到文件中finally: file.close() 有一条专门为此设计的语句,With语句...

2018-11-18 20:56:59 291

原创 【SAP BW】BW 中 编写ABAP 的经验教训总结

【SAP BW】BW 中 编写ABAP 的经验教训总结声明变量SELECT查询Loop/Read注释:在BW/4 HANA的开发中常在结束例程中编写大量的ABAP代码,这里小小的总结了自己开发中一些经验教训吧。声明变量声明对象的名称应该有适当的意义。声明和定义用于内部表的结构,以及所需的字段。不要直接使用现有的DDIC表,因为大多数情况下我们不会使用DDIC表的所有字段。这将有助于节省内...

2018-10-14 22:43:21 2919 1

原创 【SAP BW】BW非累积模型构建

【SAP BW】BW非累积模型构建需求仓库库存计算,1月1号库存为10,1月2号库存为5,则1月3号库存≠1月1号库存+1月2号库存。 资金余额计算,贷款放贷、还贷后余额计算,1月1号余额为10,1月2号余额为5,则1月3号余额≠1月1号余额+1月2号余额。BW/4 HANA中建模本例以贷款余额计算为例子建模。 1, 创建key figure 贷款余额计算需要用到4个k...

2018-08-24 08:37:10 2369 1

关系图所需配置文件.zip

Echart关系图所需配置文件,在Flask部署时,需要多加入这几个文件,不然页面无法加载打开,会出现错误。

2019-11-25

CM5和CDH5 搭建Hadoop 集群

详细安装过程,各种报错和问题的解决方法。步骤很清晰。

2018-03-30

495个C语言问题.pdf

给出n个学生的m门课程的成绩表,每个学生的信息由学号、姓名以及各科成绩组成。对学生的考试成绩进行有关统计分析,并打印统计表。

2015-12-24

c++复习资料

c++复习资料

2015-07-11

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除