- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 【数坊人群计算2.0】
尚有呼吸,未来可期实现数坊人群计算功能只需上传指定格式数据至人群计算的API,主要难点就是从填数方便的EXCEL数据转换为数坊后台能读懂的数据格式
2022-05-12 17:07:21 1082
原创 【结巴分词+剔除符号】京东商城商品标题词频统计
import pandas as pdimport jiebaimport redf = pd.read_excel(r'C:\Users\41809\Desktop\拉拉裤.xlsx', sheet_name="最终")["商品名称"]words = []for name in df.values.tolist(): word = list(jieba.cut(name)) words += wordwordcount = {}for word in words:
2021-12-30 12:50:39 364
原创 【数坊人群计算 v1.0】单一逻辑实现自动人群计算
从前数坊很慢,等待很久,一天只能取一批数,现在数坊新增了人群计算功能,每天取数取到手软,神说要自动化,因此就有了人群计算工具1.0
2021-12-07 18:20:38 923 5
原创 使用selenium代替点击,实现数坊自动更新人群包
部分人群逻辑仅京东数坊可以圈选到,因此需要数坊圈选后推送到DMP后台,但由于数坊人群包的非实时性,只能通过人工定期更新的方式进行,因此需要一个脚本来代替人工去点击上百个人群包的重复操作。首先需要传入cookie由于客户拒绝提供账号密码,仅能通过扫码登陆,为了不总去麻烦客户,所以使用cookie登陆先把cookie复制下放入cookie.txt文件with open('cookie.txt', 'r', encoding='utf-8') as f: str = f.read()把
2021-04-27 15:34:23 481 1
原创 批量对热门文章发送评论,实现博客高效引流
最近总能看见许多人通过评论别人博客,实现增长自己博客的评论随便点开一篇文章都可以找到相似话语如何实现首先确定评论什么样的文章选择平台首页文章,文章多,但杂乱选择排行榜文章,热度高,但数量有限选择小模块文章,文章多,且符合自身博客领域(高效引流、高留存率)当然,还可以在某领域文章中在筛选点赞超过100、浏览超过1000文章进行筛选,我就简单粗暴的直接拉取平台首页文章啦第一步:去首页拿到文章信息我们可能需要的有id、url、name、点赞数、评论数、浏览数等等,我这里就简单拿个id
2021-04-17 14:24:09 422 2
原创 批量获取京东数坊营销人群追踪新客数
requests + datetime + openpyxl代替点击、复制、粘贴为甚数坊越是不能下载的数据,客户越喜欢看实现遍历日期import datetimekaishi = datetime.date(2021, 2, 1)jieshu = datetime.date(2021, 2, 21)delta = datetime.timedelta(days=1)d = kaishiwhile d <= jieshu: riqi = d.strftime("%Y-%m-%d
2021-04-07 17:32:52 998 6
原创 天天无聊的复制粘贴,requests + openpyxl解放双手
京东数坊的数据拿到EXCEL里管他用不用的上,都给他引上from openpyxl import load_workbookimport requestsimport jsonimport os先拿个cookie再说cookie = '__jdu******此处省略一万字'再伪造个请求头headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, l
2021-03-30 18:36:28 354 2
原创 window系统自带定时任务
win加R输入compmgmt.msccompmgmt.msc计算机管理–>系统工具—>任务计划程序---->任务计划程序库------>创建
2021-02-01 18:44:53 165 1
原创 字符串中传入变量
将URL中变量设置为变量传入参数以百度搜索为例url = ‘https://www.baidu.com/s?ie=UTF-8&wd=百度’方法一word = '百度'url = 'https://www.baidu.com/s?ie=UTF-8&wd=%s' % wordprint(url)方法二word = '百度'url = f'https://www.baidu.com/s?ie=UTF-8&wd={word}'print(url)方法三word =
2021-01-29 16:29:14 474 1
原创 cookie格式化
字符串转成字典使用场景selenium尝试试用cookie登陆时,Network中cookie是一段字符串,需要转成字典使用使用split和列表解析式str = 'thor=8954F43; Id=d32def3ffSNw; pn=adsada; unqwk=dadada; cesai3.com=000; tp=6QZKZy%2BM7BP9T%2FGho2Uusw%3D%3D; loging=0; st=dadasda; da=2323.1564297933.152323299.1610232368
2021-01-19 18:30:27 1155 3
原创 京东数坊人群追踪报告数据无法下载
背景实现自动获取网页内容,节省复制粘贴时间成本模拟登陆def Land_Stage(url): # 设置浏览器并打开 option = webdriver.ChromeOptions() prefs = {'profile.default_content_settings.popups': 0} option.add_experimental_option('prefs', prefs) driver = webdriver.Chrome(options=optio
2021-01-19 14:29:21 289 1
原创 vc code 快捷键
注释操作快捷键快速注释Ctrl + k +c取消注释Ctrl + k + u格式调整操作快捷键文本对齐shift + Alt + F右移Ctrl + ]左移Ctrl + [向上复制一行Shift + Alt + Up向下复制一行Shift+Alt+Down当前行上方插入一行Ctrl + S...
2019-04-08 19:09:54 183
原创 爬虫基础框架
import requestsdef getHTMLtext(url): try: r = requests.get(url, timeout = 30) r.raise_for_status() # 如果状态不是200, 引发HHTTError异常 r.encoding = r.apparent_encoding return r.text except: ret...
2019-01-24 19:28:29 129
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人