牧羊人sss-CSDN博客

原创 MySQL计算环比

MySQL计算周环比表一：查询当天和一周前的日期select Date, date_sub(Date, interval 7 day) last_date, Impressions, Clicks, Conversions from google_ads_campaign_performance_report 表二：select Date, Impressions, Clicks, Conversions from google_ads_campaign_performance_report以

2020-12-02 14:03:57 899

原创 Python面试题

语言特性Python语言与其它语言的区别。Python语法简洁易懂，拥有强大的第三方库，适用范围广，且Python是解释型语言，运行时一行行解释并运行调试代码方便，开发效率高。编译型语言和解释型语言的区别。编译型语言：写好的程序可直接运行。执行速度快效率高，依赖编译器，跨平台性差。解释型语言：把写好的代码翻译成机器语言再运行。执行速度慢，效率低，依赖解释器，跨平台型好。通俗的讲...

2019-12-17 16:15:20 760

原创 Python异常值分析

异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的，不加剔除地把异常值包括进数据的计算分析过程中，对结果会产生不良影响；重视异常值的出现，分析其产生的原因，常常成为发现问题进而改进决策的契机。异常值是指样本中的个别值，其数值明显偏离其余的观测值。异常值也称为离群点，异常值的分析也称为离群点分析。（1）简单统计量分析可以先对变量做一个描述性统计，进而查看哪些...

2019-12-14 15:31:30 955

原创 Python数据分析与挖掘实战

一、数据挖掘1.数据挖掘定义：从海量数据（包含文本）中挖掘出对企业有潜在价值的趋势、知识或规则，并利用这些知识或规则进行建立模型，对预测型决策进行指导的过程。2.数据挖掘的流程：2.1、数据抽取：要重点关注数据的质量，可以进行同环比、逻辑、日期、平衡关系校验。2.2、数据探索：主要包括相关性分析、、、2.3、数据预处理：2.4、模型建立：2.5、模型评价：3.数据挖掘的工具：...

2019-12-12 09:56:34 348

原创爬取豆瓣《小丑》短评做词云图

一、抓取小丑的豆瓣短评网址：https://movie.douban.com/subject/27119724/reviews?start=20每一页20个评论，我总共抓取了3060条评论：分别抓取了评论用户的名称、短评的内容，点赞数目以及用户链接抓取内容保存为文本格式，用pandas进行读取后如下所示：import pandas as pdtable=pd.read_table('...

2019-12-11 11:00:56 526

转载 jieba.analyse的使用：提取关键字

① jieba.analyse.extract_tags 提取关键字：第一个参数：待提取关键词的文本第二个参数：返回关键词的数量，重要性从高到低排序第三个参数：是否同时返回每个关键词的权重第四个参数：词性过滤，为空表示不过滤，若提供则仅返回符合词性要求的关键词print("***案例1***"*3)txt='那些你很冒险的梦，我陪你去疯，折纸飞机碰到雨天终究会坠落，伤人的话我直说，因为...

2019-12-11 10:52:16 10332 3

原创 numpy基础

1.生成数组1.1使用array函数生成数组import numpy as npdata1=[[4,3,5,2],[4,7,5,9]]np.array(data1)1.2生成特殊数组#创建全为0的数组np.zeros((3,4))#创建全为1的数组np.ones((3,3))2.改变数组类型2.1 astype函数改变类型data.dtype#dtype查看数组类...

2019-12-08 16:49:11 208

原创使用代理池爬取中国公路物流数据

分析：1.通过chrome浏览器F12找到其ajax接口2.通过post方法发送请求获取json格式数据3.构造简单的代理池进行爬取1.代理池：会便览西刺代理网页，然后测试每一个代理查看是否能够成功访问目标网页，如果成功则保存人D盘文本文件。缺陷：代理池中的代理未必都可用，因为有些代理是测试的时候可用但之后不可用，有些代理是刚开始不可用后来可用。import requestsfrom...

2019-11-29 10:15:18 644

原创 strptime,strftime,timedelta用法

1.time.strptime:将特定格式的时间字符串解析为时间元组。import timenow='2019-11-22'now_time=time.strptime(now,'%Y-%m-%d')返回：time.struct_time(tm_year=2019, tm_mon=11, tm_mday=22, tm_hour=0, tm_min=0, tm_sec=0, tm_wd...

2019-11-16 13:32:24 375 1

转载 Python判断字符串是否含有数字

原文地址如下：https://blog.csdn.net/u011412768/article/details/82470069网上搜索的：1.判断一个字符串是否为中文或数字：通过unicode编码来判断2.判断一个字符串是否全部都为数字：通过isdigit来判断3.判断一个字符串中是否包含数字：通过正则来匹配原文如下：1、判断一个字符串是不是中文，这里的关键是在判断的时候用字符串的U...

2019-11-16 10:33:25 32780 2

原创 re.sub使用

python中的re.sub可以用于替换被正则表达式匹配的字符串：实例：import rest='hello 123're.sub('\d+','word',st)另外还可以使用函数对正则匹配到的字符进行处理：s='attribute1=1&cateId=2&exponentTypeId=2&marketId=1&endLine=南京&sta...

2019-11-14 20:21:22 209

原创算法

算法学习至算法图解1. 二分查找原理：对于一组有序数据，每次从数据的中间开始查找，假如中间值正好与查找值相等，那表示已经找到；假如不等，则把数据组从中间分成前组和后组，如果需查找的数据比中间数大，则取后组再次进行查找，重复以上过程，直至找到。时间复杂度：O(log2n)Python实现：def binary_search(li,item): low=0 high=len...

2019-11-06 19:43:58 219

原创 170道Python面试题：数据类型

数据类型19.列举 Python 中的基本数据类型？答：Python3中有6种基本数据类型，列表（list）、元组（tuble）、字典（dict）、集合（sets）、字符串（string）、数字（digit）。20. 如何区别可变数据类型和不可变数据类型答：可变数据类型：在内存地址不变的情况下，值可以改变（列表字典是可变，字典的key不可变）不可变数据类型：当数据的值改变的时候内存地址也...

2019-11-05 14:11:56 608

原创 scrapy爬取中国永康五金

分析：中国永康五金是使用ajax请求来获取数据，需要在spiders中进行构造请求并爬取数据，在pipeline中对数据进行预处理。爬虫结构如下：1.spiders：构造请求并爬取数据import scrapyfrom myproject.items import YongkangItemclass YkindexSpider(scrapy.Spider): name = ...

2019-11-05 13:21:12 201

原创抓取大西洋地区平均租船价格

分析：此网页需要模拟登录进而获取cookies，获取分页是使用post方法，因此需要先chrome抓包，取得post参数进行构造data，最后还需要配置正则来匹配符合条件的标题，在下载文件的过程中，我使用了新学的queue模块和threading模块来进行多线程下载。1.模拟登录获取cookiesimport requestsimport refrom selenium import w...

2019-11-05 12:10:37 210

原创获取湖南邮政行业运行情况

获取湖南邮政行业运行情况要点：1.使用生成器 yield 减少内存消耗；2.使用正则匹配关键字提取符合规则的文件标题；import requestsfrom lxml import etreeimport reimport csvurls=['http://hn.spb.gov.cn/xytj/index_4.html','http://hn.spb.gov.cn/xytj/...

2019-10-18 17:01:39 155

原创识别验证码模拟登录微博

最近学习爬虫，想要自动登录新浪微博，但是被验证码那关难住了，最后受崔庆才老师的启发，使用网上验证码破解平台超级鹰来破解微博的密码。1.模拟登录：首先登录微博：https://passport.weibo.cn/signin/login我们这里使用selenium进行模拟登录from selenium import webdriverfrom selenium.webdriver.sup...

2019-09-07 17:05:31 2991

原创记载下载土地网数据

前言最近由于工作需要下载中国土地网的数据，本以为是个很简单的小网站用requests库就可以轻松解决，结果这个网站到处都是坑，最后无奈之下只能采用selenium来进行爬取，虽说有点大材小用，但毕竟是解决了问题。数据源分析首先要是数据源网址：https://www.landchina.com/default.aspx?tabid=262&ComName=default打开后界面是这...

2019-08-20 23:08:31 370

原创 pandas记载

pandas记载你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。1.构造Series和DataFrame对象Series和DataFrame是pandas的基本对象，下面来演示下如何构造它们：import pandas as pd#构造series对象obj_...

2019-08-07 15:18:38 145

原创 Kaggle房价预测记载

一：定义问题二：理解数据三：数据清洗四：特征工程五：模型选择1.定义问题问题描述：基于项目提供的房屋历史数据，预测新的房屋销售价格，本题是一个回归问题，应考虑使用回归模型进行求解，项目的评分标准是均方根误差（RMSE）。2.数据理解2.1数据概览trainSet=pd.read_csv('E:/Python3.6 File/house-prices/train.csv')#读取数...

2019-03-24 20:29:51 613

qq_40082282的博客