自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 MySQL计算环比

MySQL计算周环比表一:查询当天和一周前的日期select Date, date_sub(Date, interval 7 day) last_date, Impressions, Clicks, Conversions from google_ads_campaign_performance_report 表二:select Date, Impressions, Clicks, Conversions from google_ads_campaign_performance_report以

2020-12-02 14:03:57 890

原创 Python面试题

语言特性Python语言与其它语言的区别。Python语法简洁易懂,拥有强大的第三方库,适用范围广,且Python是解释型语言,运行时一行行解释并运行调试代码方便,开发效率高。编译型语言和解释型语言的区别。编译型语言:写好的程序可直接运行。执行速度快效率高,依赖编译器,跨平台性差。解释型语言:把写好的代码翻译成机器语言再运行。执行速度慢,效率低,依赖解释器,跨平台型好。通俗的讲...

2019-12-17 16:15:20 754

原创 Python异常值分析

异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响;重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点分析。(1)简单统计量分析可以先对变量做一个描述性统计,进而查看哪些...

2019-12-14 15:31:30 927

原创 Python数据分析与挖掘实战

一、数据挖掘1.数据挖掘定义:从海量数据(包含文本)中挖掘出对企业有潜在价值的趋势、知识或规则,并利用这些知识或规则进行建立模型,对预测型决策进行指导的过程。2.数据挖掘的流程:2.1、数据抽取:要重点关注数据的质量,可以进行同环比、逻辑、日期、平衡关系校验。2.2、数据探索:主要包括 相关性分析、、、2.3、数据预处理:2.4、模型建立:2.5、模型评价:3.数据挖掘的工具:...

2019-12-12 09:56:34 339

原创 爬取豆瓣《小丑》短评做词云图

一、抓取小丑的豆瓣短评网址:https://movie.douban.com/subject/27119724/reviews?start=20每一页20个评论,我总共抓取了3060条评论:分别抓取了评论用户的名称、短评的内容,点赞数目以及用户链接抓取内容保存为文本格式,用pandas进行读取后如下所示:import pandas as pdtable=pd.read_table('...

2019-12-11 11:00:56 517

转载 jieba.analyse的使用:提取关键字

① jieba.analyse.extract_tags 提取关键字:第一个参数:待提取关键词的文本第二个参数:返回关键词的数量,重要性从高到低排序第三个参数:是否同时返回每个关键词的权重第四个参数:词性过滤,为空表示不过滤,若提供则仅返回符合词性要求的关键词print("***案例1***"*3)txt='那些你很冒险的梦,我陪你去疯,折纸飞机碰到雨天终究会坠落,伤人的话我直说,因为...

2019-12-11 10:52:16 10121 3

原创 numpy基础

1.生成数组1.1使用array函数生成数组import numpy as npdata1=[[4,3,5,2],[4,7,5,9]]np.array(data1)1.2生成特殊数组#创建全为0的数组np.zeros((3,4))#创建全为1的数组np.ones((3,3))2.改变数组类型2.1 astype函数改变类型data.dtype#dtype查看数组类...

2019-12-08 16:49:11 203

原创 使用代理池爬取中国公路物流数据

分析:1.通过chrome浏览器F12找到其ajax接口2.通过post方法发送请求获取json格式数据3.构造简单的代理池进行爬取1.代理池:会便览西刺代理网页,然后测试每一个代理查看是否能够成功访问目标网页,如果成功则保存人D盘文本文件。缺陷:代理池中的代理未必都可用,因为有些代理是测试的时候可用但之后不可用,有些代理是刚开始不可用后来可用。import requestsfrom...

2019-11-29 10:15:18 610

原创 strptime,strftime,timedelta用法

1.time.strptime:将特定格式的时间字符串解析为时间元组。import timenow='2019-11-22'now_time=time.strptime(now,'%Y-%m-%d')返回:time.struct_time(tm_year=2019, tm_mon=11, tm_mday=22, tm_hour=0, tm_min=0, tm_sec=0, tm_wd...

2019-11-16 13:32:24 369 1

转载 Python判断字符串是否含有数字

原文地址如下:https://blog.csdn.net/u011412768/article/details/82470069网上搜索的:1.判断一个字符串是否为中文或数字:通过unicode编码来判断2.判断一个字符串是否全部都为数字:通过isdigit来判断3.判断一个字符串中是否包含数字:通过正则来匹配原文如下:1、判断一个字符串是不是中文,这里的关键是在判断的时候用字符串的U...

2019-11-16 10:33:25 32269 2

原创 re.sub使用

python中的re.sub可以用于替换被正则表达式匹配的字符串:实例:import rest='hello 123're.sub('\d+','word',st)另外还可以使用函数对正则匹配到的字符进行处理:s='attribute1=1&cateId=2&exponentTypeId=2&marketId=1&endLine=南京&sta...

2019-11-14 20:21:22 205

原创 算法

算法学习至算法图解1. 二分查找原理:对于一组有序数据,每次从数据的中间开始查找,假如中间值正好与查找值相等,那表示已经找到;假如不等,则把数据组从中间分成前组和后组,如果需查找的数据比中间数大,则取后组再次进行查找,重复以上过程,直至找到。时间复杂度:O(log2n)Python实现:def binary_search(li,item): low=0 high=len...

2019-11-06 19:43:58 217

原创 170道Python面试题:数据类型

数据类型19.列举 Python 中的基本数据类型?答:Python3中有6种基本数据类型,列表(list)、元组(tuble)、字典(dict)、集合(sets)、字符串(string)、数字(digit)。20. 如何区别可变数据类型和不可变数据类型答:可变数据类型:在内存地址不变的情况下,值可以改变(列表字典是可变,字典的key不可变)不可变数据类型:当数据的值改变的时候内存地址也...

2019-11-05 14:11:56 575

原创 scrapy爬取中国永康五金

分析:中国永康五金是使用ajax请求来获取数据,需要在spiders中进行构造请求并爬取数据,在pipeline中对数据进行预处理。爬虫结构如下:1.spiders:构造请求并爬取数据import scrapyfrom myproject.items import YongkangItemclass YkindexSpider(scrapy.Spider): name = ...

2019-11-05 13:21:12 192

原创 抓取大西洋地区平均租船价格

分析:此网页需要模拟登录进而获取cookies,获取分页是使用post方法,因此需要先chrome抓包,取得post参数进行构造data,最后还需要配置正则来匹配符合条件的标题,在下载文件的过程中,我使用了新学的queue模块和threading模块来进行多线程下载。1.模拟登录获取cookiesimport requestsimport refrom selenium import w...

2019-11-05 12:10:37 203

原创 获取湖南邮政行业运行情况

获取湖南邮政行业运行情况要点:1.使用 生成器 yield 减少内存消耗;2.使用正则匹配关键字提取符合规则的文件标题;import requestsfrom lxml import etreeimport reimport csvurls=['http://hn.spb.gov.cn/xytj/index_4.html','http://hn.spb.gov.cn/xytj/...

2019-10-18 17:01:39 148

原创 识别验证码模拟登录微博

最近学习爬虫,想要自动登录新浪微博,但是被验证码那关难住了,最后受崔庆才老师的启发,使用网上验证码破解平台超级鹰来破解微博的密码。1.模拟登录:首先登录微博:https://passport.weibo.cn/signin/login我们这里使用selenium进行模拟登录from selenium import webdriverfrom selenium.webdriver.sup...

2019-09-07 17:05:31 2911

原创 记载下载土地网数据

前言最近由于工作需要下载中国土地网的数据,本以为是个很简单的小网站用requests库就可以轻松解决,结果这个网站到处都是坑,最后无奈之下只能采用selenium来进行爬取,虽说有点大材小用,但毕竟是解决了问题。数据源分析首先要是数据源网址:https://www.landchina.com/default.aspx?tabid=262&ComName=default打开后界面是这...

2019-08-20 23:08:31 352

原创 pandas记载

pandas记载你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。1.构造Series和DataFrame对象Series和DataFrame是pandas的基本对象,下面来演示下如何构造它们:import pandas as pd#构造series对象obj_...

2019-08-07 15:18:38 140

原创 Kaggle房价预测记载

一:定义问题二:理解数据三:数据清洗四:特征工程五:模型选择1.定义问题问题描述:基于项目提供的房屋历史数据,预测新的房屋销售价格,本题是一个回归问题,应考虑使用回归模型进行求解,项目的评分标准是均方根误差(RMSE)。2.数据理解2.1数据概览trainSet=pd.read_csv('E:/Python3.6 File/house-prices/train.csv')#读取数...

2019-03-24 20:29:51 598

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除