自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 爬虫:Sentry-Span参数逆向

在抓某眼查数据太过频繁时会出现极验的验证码。极验的教程有很多,主要是发现在这里获取验证码的时候需要携带参数。在这里记录一下逆向的主要过程,直接上补环境的代码。

2024-07-08 16:55:10 251 1

原创 数据挖掘:银行客户认购产品预测

数据挖掘:银行客户认购产品预测。

2022-10-24 16:37:39 3869 2

原创 爬虫 — 大众点评商户信息的爬取和文字反爬

信息爬取import requestsfrom lxml import etreeimport timeimport jsonimport pandas as pdimport reimport json# 获取商户名称和IDresult = []for i in range(1,51): print(i) url = r'http://www.dianping.com/haikou/ch10/p{page}'.format(page=i) headers =

2021-12-11 20:40:06 4070 2

原创 数据挖掘:贷款违约预测

数据数据来源阿里天池学习赛:零基础入门金融风控-贷款违约预测代码import pandas as pdimport numpy as npfrom sklearn.preprocessing import LabelEncoderfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import roc_auc_score,accuracy_scoreimport joblibfrom catboo

2021-05-19 17:57:24 1148

原创 cat_features must be integer or string, real number values and NaN values should be converted to str

第一次用catboost训练模型时,出现报错,具体如下:CatBoostError: Invalid type for cat_feature[non-default value idx=0,feature_idx=4]=3.0 : cat_features must be integer or string, real number values and NaN values should be converted to string.报错信息很好理解,训练器要求我们指定的类别变量的值必须为整型或

2021-05-14 17:40:44 3005 1

原创 分类预测:会员回购预测

项目说明数据集来自阿里天池:会员回购预测目的是为了判断顾客是否会响应活动从而回购,也就是一个是否响应活动的二分类模型数据说明train&testtarget:“0”代表不回购,“1”代表回购transactions代码import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import trai

2021-01-12 18:18:14 790 1

原创 Pyecharts 折线堆叠图数据序列和坐标轴不对应的问题

在用 pyecharts 练手的时候,尝试用下表中的数据构造一份折线堆叠图year_line = Line().add_xaxis(summary.columns.to_list())# year_line = Line().add_xaxis([1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,13])for i in range(4): year_line.add_yaxis(str(i+2012), stack='

2020-08-27 20:47:51 3659 3

原创 数据分析:母婴商品数据可视化

数据来源:Baby Goods Info Data读取数据import numpy as npimport pandas as pdfrom pyecharts.charts import Pie,Bar,Pagefrom pyecharts import options as optsfilename = r'train.csv' #联结年龄和性别后的表filename1 = r'trade_history.csv'data = pd.read_csv(filename)data1 =

2020-08-25 11:32:06 1535 2

原创 回归分析:二手车价格预测

项目说明:数据来源阿里天池的一个挖掘比赛:预测二手车交易价格import pandas as pdimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_absolute_err...

2020-04-14 16:25:18 1194

原创 python:疫情数据可视化

数据来源:BlankerL数据截止2020-04-10下午4点json数据转 csvimport jsonimport timeimport csvfile = open('DXYArea-TimeSeries.json','r',encoding='utf-8')infos = json.load(file)with open('data.csv','a',newline='...

2020-04-13 18:11:42 5850 4

原创 《商务与经济统计》Python实现笔记(五)

时间序列分析移动平均import pandas as pdimport numpy as npdata = pd.DataFrame([17,21,19,23,18,16,20,18,22,20,15,22],columns=['sale'])data["rolling_mean"] = data.rolling(3).mean().shift(1)#选前3个时间单位的平均值,预测值...

2020-03-25 18:05:57 562

原创 《商务与经济统计》Python实现笔记(四)

一元线性回归import pandas as pdimport numpy as npimport statsmodels.api as sm# import statsmodels.formula.api as smf方法二x = np.array([2,6,8,8,12,16,20,20,22,26])y = np.array([58,105,88,118,117,137,15...

2020-03-25 18:04:00 498

原创 《商务与经济统计》Python实现笔记(三)

方差分析单因素方差分析(多个总体均值相等的假设检验)import scipy.stats as statsa = [58,64,55,66,67]b = [58,69,71,64,68]c = [48,57,59,47,49]stats.f_oneway(a,b,c)F_onewayResult(statistic=9.176470588235295, pvalue=0.003...

2020-03-25 18:00:28 469

原创 《商务与经济统计》Python实现笔记(二)

总体方差的置信区间from scipy.stats import chi2def CI(n,sigma2,alpha): """ n:样本量 sigma2:样本方差 alpha:置信水平 """ a = (1-alpha)/2 b = (n-1)*sigma2 lower = b/chi2.ppf(a,df=n-1) ...

2020-03-25 17:51:13 480

原创 《商务与经济统计》Python实现笔记(一)

独立样本T检验(两样本均值估计两总体均值大小关系)import pandas as pdimport numpy as npfrom scipy import stats# 传数据data = pd.read_excel(r"C:\Users\liuhao\Desktop\python_work\Python数据分析与挖掘实战\chapter8\test\data\data.xls")...

2020-03-25 17:40:16 549

原创 norm.interval和t.interval不能直接求样本的置信区间

按网上搜到的结果调用scipy.stats包计算参数已知的置信区间from scipy import stats as sstconf_int = sst.norm.interval(0.95, loc=82, scale=20)# conf_int = sst.norm.cdf(1.96)conf_int输出结果如下:(42.80072030919892, 121.19927969...

2020-03-07 12:16:18 3655 7

原创 购买行为预测婴儿年龄:Apriori 和 KNN 的简单实现

Apriori 代码import pandas as pd#自定义连接函数,用于实现L_{k-1}到C_k的连接def connect_string(x, ms): """ x:频繁项集列表 ms: 连接符,这里用 ‘---’ return: 返回长度+1的频繁项集,即L_{k-1}到C_k的连接 """ x = list(map(lambda i:sorted(i....

2019-09-13 21:54:20 1037

原创 Python — 爬取饿了么外卖店信息

在学数据可视化,缺少点数据进行实操,就想着从饿了么上面爬点外卖店信息。主要是获取数据,所以代码比较简陋,直接上代码:import requestsimport jsonimport csvdef crawler_ele(page=0): def get_page(page): url = 'https://h5.ele.me/restapi/shopping/v3/resta...

2018-12-22 16:44:09 7097 6

原创 Pandas 报错AttributeError: 'Index' object has no attribute 'remove_unused_levels'

执行代码,将 Series 转换成 DataFrame 时:s1 = pd.Series(np.random.rand(5),index=['a','s','d','f','g'])print(s1.unstack())报错情况如下:Traceback (most recent call last): File "C:\Users\liuhao\Desktop\资料\python_w...

2018-12-03 17:54:37 15685 2

原创 Pandas read_json()时报错ValueError: Trailing data

有一份json格式的文件,如下:{ "cover": "http://p2.music.126.net/wsPS7l8JZ3EAOvlaJPWW-w==/109951163393967421.jpg?param=140y140", "title": "2018上半年最热新歌TOP50", "author": &amp

2018-12-01 16:15:06 30729 20

原创 爬虫 — 爬取携程的航班信息

功能介绍:输入起点、终点、时间就能得到携程上的航班信息代码:from prettytable import PrettyTableimport requestsimport jsondef xiecheng(dcity,acity,date): date = date[0:4]+'-'+date[4:6]+'-'+date[6:8] headers = { "User-A...

2018-11-07 17:54:45 13991 44

原创 Python+Selenium — 爬取京东搜索商品页数据

用 request 下载京东搜索商品页面源码后,发现得到的数据只有30条,怀疑京东搜索页面加载方式应该是动态渲染的,所以打算采用 Selenium 驱动谷歌浏览器来爬取搜索页面。代码如下:from selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.web...

2018-11-05 16:34:07 1305

原创 爬虫 — 生成的网页 headers

最近在弄爬虫,有些网站需要传入headers,自己将网站的 headers 一一弄下来形成字典太麻烦了。偶然发现 Chrome 可以生成一个叫 cURL 的东西,里面包含该网页的 headers 。就写了个函数自动提取并返回字典形式的 heades。先介绍一下怎么获取到网页的 cURL:按上面步骤执行就能得到下面的东西:curl "https://www.baidu.com/" -H &amp

2018-11-02 11:52:21 1310

原创 爬取大众点评网的酒店信息

输入城市的拼音,就能爬取大众点评上面该城市酒店的信息,将数据写入 csv 文件。不完善点:只能输入拼音,当然可以下载第三方库 pinyin 进行转换。未对输入的城市进行判断 。代码如下:import requestsfrom lxml import etreeimport csvimport reclass DPHotel(): def __init__(self,c...

2018-10-30 15:23:20 673

原创 Scrapy 爬取网易云音乐播放量百万以上的歌单以及歌单详情

创建爬虫查看歌单链接 https://music.163.com/#/discover/playlist用 requests 下载此链接的网页发现不是原网页,应该是被跳转到了登录页面。分析之后得到真实网页应该是:https://music.163.com/discover/playlist (去掉 #)同时还需要设置一下 headers,如下:DEFAULT_REQUEST_HEADER...

2018-10-24 17:59:29 4776

转载 Scrapy通用爬虫笔记—配置文件与配置加载

Scrapy通用爬虫个人理解就是针对一系列相似的站点建立一个爬虫框架,包含基本的框架代码,不同点可能在于各个站点的数据形式、爬取规则、页面解析形式。将爬取各个站点所需要的代码分开保存,爬取时再在框架中导入即可。1. 配置文件配置文件内容:简单点就是针对要爬取的站点所需要的独有的信息,参数都应该写进去。可以包括该爬虫的信息,起始链接和域名,爬虫设置(settings),爬取规则(Rule),以...

2018-10-09 17:55:52 2641 2

转载 Scrapy通用爬虫笔记 — CrawlSpider和Item Loader

CrawlSpiderCrawlSpider:继承自Spider类,有两个重要的属性和方法。process_start_url():当start_urls里的Request执行下载得到Response后,执行该函数进行解析,必须返回Item或者新的Request。rules:定义爬取规则的属性,是一个包含一个或多个Rule规则的列表。通过定义的Rule可以筛选出符合我们要求的链接。通过...

2018-10-07 12:04:58 572

转载 ImagesPipeline的源码

学习scrapy框架时,用到了自定义继承自ImagePipeline的类下载图片,对于函数中的参数存在疑问,查看了ImagePipeline的源码,如下:class ImagesPipeline(FilesPipeline): """ Abstract pipeline

2018-10-06 11:48:00 807

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除