- 博客(5)
- 收藏
- 关注
原创 产品组合创新性对点击量的python爬虫实现
1、选取电商零售企业的python代码import requestsimport jsonimport osimport randomimport timeimport pandas as pddef sleep_func(x, y): """ sleep方法, 单账号抓取过快, 一段时间内请求会失败 """ sleep_time = random.choice(range(x, y)) * 0.1 time.sleep(sleep_time)de
2021-06-21 00:32:42 229
原创 知瓜数据爬取-机构排行榜
采用fiddler对知瓜数据的机构排行榜进行爬取,如下图:可以看到我们想要爬取的排行榜网址为2020年5月,月榜:http://api.zhigua.cn/v1/rank/GetLiveOrgScoreRank?pageIndex=1&pageSize=10&dateCode=20200501&period=30&sortType=0&_=15914963837962020年4月,月榜:http://api.zhigua.cn/v1/rank/GetLive
2020-11-28 12:39:35 606 2
原创 数据处理python练习1
需求:对一天内多次直播的只保留最后一次的记录。import pandas as pdimport osos.chdir(r'C:\Users\峰\Desktop\学习\python\数据\快手') # 文件位置data = pd.read_csv('10-2月快手带货数据重新整理版(6.2).csv')lists = []b = len(data)n = 0while n < b: a = data.loc[n, '日直播次数'] if a == 1:
2020-06-02 11:34:09 280
原创 scikit-learn库学习-特征工程
找到与问题有关的任何信息, 把它们转换成特征矩阵的数值。这个过程通常被称为向量化, 因为它把任意格式的数据转换成具有良好特性的向量形式。
2020-06-01 23:55:57 204 1
原创 pandas库的学习记录(一)
pandas库的合并pd.merge()通过一个或多个键将行链接起来的。语法结构:pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,left_index=False, right_index=False, sort=True,suffixes=('_x', '_y'), copy=True, indicator=False,validate=None)参数解释如下:left, right:拼接
2020-05-28 10:59:30 231 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人