- 博客(23)
- 收藏
- 关注
原创 推荐算法(三)基于标签的算法--CTR预估
1、在工业界,数据量非常大,如果用pandas读入,虽然方便后续数据操作,但占用内存过多。工业界一般存储稀疏数据用LIBSVM。2、在进行建模前,先进行探索,删除脏数据,分析下各个特征的初步效果;对不均衡的样本,下采样,然后有多个分类器,通过bagging合并。3、在排序ranking场景下,评估指标经常是AUC4 时间预处理:映射为不同的时间段5、如果某一列的类别太多,(1)先做...
2019-03-20 15:39:26 572
转载 pandas随机抽样
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)n是要抽取的行数。(例如n=20000时,抽取其中的2W行)frac是抽取的比列。(有一些时候,我们并对具体抽取的行数不关系,我们想抽取其中的百分比,这个时候就可以选择使用frac,例如frac=0.8,...
2019-02-13 11:16:16 1447
转载 电商精细化运营的五大关键指标和三个关键思路——笔记
1、品类及SKU多,用户覆盖广,运营难度大;2、客单价偏低,强调留存和复购,强化运营;3、产品设计相对成熟,优化运营时重中之重;4、竞争激烈。要想实现精细化运营,数据分析是必不可少的一个环节。电商网站要提高运营效率,至少需要五大关键指标:活跃用户量、转化率、留存、复购和 GMV 。活跃用户量是一个基本的指标,有 DAU (日活跃用户)、WAU (周活跃用户)和 MAU (月活跃...
2019-01-07 12:02:15 10080
转载 互联网金融的客户增长--笔记
一 、互联网金融用户四大行为特征第一,流量转化率低;第二,虽然转化率低,但是客单价却很高;第三,用户购买行为有很强周期性;第四,购买行为的强特征,包括购买偏好和购买周期,其中购买周期包含决策期(有大量交互行为)、观察期(购买后查看收益率)、赎回再投期(赎回资金后,产生大量交互行为,为下一次的购买做准备)。二、互联网金融用户运营的三大步骤1.首先,获取可能购买的目标用户,合理配...
2019-01-02 10:29:33 540
原创 sql选取随机的记录
SELECT * FROM (SELECT * FROM login WHERE logintime >=to_date('2018-03-01 00:00:00','yyyy-mm-dd hh24:mi:ss') and logintime <to_date('2018-07-31 23:59:59','yyyy-mm-dd hh24:mi:ss') and CLIENT_VE...
2018-08-14 15:39:30 591
原创 python 合并数据表
读取列表 import pandas as pdunames=['user_id','gender','age','occupation','zip'] users=pd.read_table('E:/DataAnalysis/pydata-book/pydata-book-1st-edition/ch02/movielens/users.dat',sep='::',header...
2018-08-07 00:22:08 626
原创 python数据分析--导入数据
1、读取指定路径的数据读取json类型数据,注意python2和python3的路径表示不一样,我使用的python3中使用 \\ ,而python2中使用反斜杠 /import jsonpath='E:\\DataAnalysis\\pydata-book\\pydata-book-1st-edition\\ch02\\usagov_bitly_data2012-03-16-133...
2018-08-05 23:53:10 471
原创 【hi,elsa,sql】查询sql中每月的数据,并按月显示
错误尝试:之前直接用MONTH 截取datatime的月份,不成功正确:改用EXTRACT函数完成月份的提取,其中count可以换成sum之类计算总和select EXTRACT(MONTH FROM datetime时间字段),COUNT(*)from 表明GROUP BY EXTRACT(MONTH FROM datetime时间字段)...
2018-07-24 17:20:43 998
原创 【Hi Elsa,java is coming】Error:(57, 21) java: 不兼容的类型: java.lang.String无法转换为com.sun.org.apa
原代码:import com.sun.org.apache.xpath.internal.operations.String;public class hello{ static String s="htf"; int storage(String s){ return s.length()*2; } public static voi...
2018-07-24 16:28:02 6124 1
原创 python爬虫scrapy之贷联盟黑名单爬取
1、创建项目scrapy startproject ppd2,爬取单页,主要用xpathspider里面的源码from scrapy.spiders import Spiderfrom scrapy.selector import Selectorfrom ppd.items import BlackItemclass PpdSpider(Spider): name
2017-12-14 15:56:14 1005
原创 python爬虫框架scarpy之AttributeError: module 'scrapy' has no attribute 'spider'
用scrapy的spider做爬虫,发现运行有问题。源码:import scrapyclass PpdSpider(scrapy.spider): name='PpdSpider' start_url=['http://www.dailianmeng.com/p2pblacklist/index.html'] def parse(self,response):
2017-12-14 11:19:04 6527 1
原创 scrapy安装win32api,找不到包解决方法
首次运行scrapy,报错:ModuleNotFoundError: No module named 'win32api'我是64位win,要下载这个module,选择适合型号的win32apihttps://sourceforge.net/projects/pywin32/files%2Fpywin32/安装后,还是报错,找不到这个包通过pip安装pypiwi
2017-12-14 10:25:51 520
原创 python爬虫scrapy框架基础知识
基础知识1、爬取网页时要分析网页结构如:https://www.cnblogs.com/#p2,p2是灵活的每一页2、xpath支持正则表达式,可以选择两个方式,一是通过chrome选择Xpath,二是选择class
2017-12-14 09:43:39 307
原创 python爬虫基础知识之requests,读取图片的两只方式,cookies,beautifulsoup
Requests1. o 发送请求o 传递URL参数o 读取响应内容(文本/二进制/Json)o 定制请求头部o Post请求o 响应状态码o 重定向和历史o 超时 2. 处理二进制内容导入包 #抓取图片from PIL import Image#处理二进制内容from io import B
2017-12-12 16:53:08 851
原创 python爬虫基础知识之选择器
1 选择器ID1.1 Class属性选择器:可以指定值来选择后代选择器(包含选择器)子选择器 1.2 Xpath使用路径表达式在xml中进行导航 1.3 Xpath和css的区别:Css更简洁Xpath文件路径,看作目录树XPath谓语很强大 1.4
2017-12-12 16:49:54 628
原创 python 学习基础笔记
一、 运行selenium自动化爬取内容安装Chrome driver 需要权限http://blog.csdn.net/u012359618/article/details/52556127 二、Scrapy框架安装scrapy 三、Python3 默认utf-8 四、For只能用于容器 五、Lambda简化代码结构f( lambda x:x+
2017-12-12 16:44:18 226
原创 sublim不显示结果,搭建python环境
a) Sublime could not show resultsQ: Environment is not builtA: tools-build system-new build system, then write{ "cmd":["D:/python-3.6.3.exe","-u","$file"], "file_regex":"^[]*file \"(.
2017-12-12 16:41:24 560
原创 python爬取新浪财经的股票信息
import requestsimport threadingdef display_info(code): url = 'http://hq.sinajs.cn/list=' + code response = requests.get(url).text print(response)def single_thread(codes): for code
2017-12-12 16:34:27 7124
原创 python爬虫框架scrapy安装
安装scrapy的时候报错:首先用pip安装:pip install scrapy报错:忘记截图了,简而言之是要C++环境,要我下载查了网上的攻略,用whl安装twisted包,再安装scrapy。(1)安装twistedhttps://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted下载合适自己的包,cp后面代表pytho
2017-12-12 16:30:15 323
原创 python爬虫selenium爬取开开贷黑名单
第一次用selenium爬取黑名单数据,但是不够自动化,页面总长和每页有多少条记录都是手动设置变量添加的,很不智能。这次代码改进了一下内容:(1)把页码有关的信息切出来,自动获取页数(2)查找每页有多少记录(3)利用两个list保存数据,更好维护(4)利用css_selector获取数据,并且改了(5)写成了函数,更加规范(6)抛出异常(7)timeout的问题,原
2017-12-12 16:14:35 827
原创 python爬虫笔记之三要点
python爬虫的三个要点:1,获取种子url。获取的方式很多,css,xml等,处理的方式有dom,需要全部读取内容,再进行筛选,写起来容易读,适合数据量不大的爬虫,Sax流处理模式,一遍读一遍处理,代码不太易读,但是处理效率高,获取到需要的内容后,后面的内容可以不读了。2,解析需要的内容第一,requests,方便的封装包,(1)可以读取cookies,(2)获取url内容,两种方式读取图片如
2017-12-12 09:39:56 410
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人