自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 推荐算法(三)基于标签的算法--CTR预估

1、在工业界,数据量非常大,如果用pandas读入,虽然方便后续数据操作,但占用内存过多。工业界一般存储稀疏数据用LIBSVM。2、在进行建模前,先进行探索,删除脏数据,分析下各个特征的初步效果;对不均衡的样本,下采样,然后有多个分类器,通过bagging合并。3、在排序ranking场景下,评估指标经常是AUC4 时间预处理:映射为不同的时间段5、如果某一列的类别太多,(1)先做...

2019-03-20 15:39:26 525

原创 推荐算法 (二) 微软开源项目

推荐算法 (二) 微软开源项目

2019-03-20 15:38:49 632

原创 推荐算法(一) GBDT+LR

推荐算法(一) GBDT+LR

2019-03-20 15:36:10 784

转载 pandas随机抽样

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)n是要抽取的行数。(例如n=20000时,抽取其中的2W行)frac是抽取的比列。(有一些时候,我们并对具体抽取的行数不关系,我们想抽取其中的百分比,这个时候就可以选择使用frac,例如frac=0.8,...

2019-02-13 11:16:16 1363

转载 电商精细化运营的五大关键指标和三个关键思路——笔记

1、品类及SKU多,用户覆盖广,运营难度大;2、客单价偏低,强调留存和复购,强化运营;3、产品设计相对成熟,优化运营时重中之重;4、竞争激烈。要想实现精细化运营,数据分析是必不可少的一个环节。电商网站要提高运营效率,至少需要五大关键指标:活跃用户量、转化率、留存、复购和 GMV 。活跃用户量是一个基本的指标,有 DAU (日活跃用户)、WAU (周活跃用户)和 MAU (月活跃...

2019-01-07 12:02:15 9609

转载 互联网金融的客户增长--笔记

一 、互联网金融用户四大行为特征第一,流量转化率低;第二,虽然转化率低,但是客单价却很高;第三,用户购买行为有很强周期性;第四,购买行为的强特征,包括购买偏好和购买周期,其中购买周期包含决策期(有大量交互行为)、观察期(购买后查看收益率)、赎回再投期(赎回资金后,产生大量交互行为,为下一次的购买做准备)。二、互联网金融用户运营的三大步骤1.首先,获取可能购买的目标用户,合理配...

2019-01-02 10:29:33 481

原创 sql选取随机的记录

SELECT * FROM (SELECT * FROM login WHERE logintime >=to_date('2018-03-01 00:00:00','yyyy-mm-dd hh24:mi:ss') and logintime <to_date('2018-07-31 23:59:59','yyyy-mm-dd hh24:mi:ss') and CLIENT_VE...

2018-08-14 15:39:30 562

原创 python 合并数据表

 读取列表 import pandas as pdunames=['user_id','gender','age','occupation','zip'] users=pd.read_table('E:/DataAnalysis/pydata-book/pydata-book-1st-edition/ch02/movielens/users.dat',sep='::',header...

2018-08-07 00:22:08 577

原创 python数据分析--导入数据

1、读取指定路径的数据读取json类型数据,注意python2和python3的路径表示不一样,我使用的python3中使用  \\ ,而python2中使用反斜杠 /import jsonpath='E:\\DataAnalysis\\pydata-book\\pydata-book-1st-edition\\ch02\\usagov_bitly_data2012-03-16-133...

2018-08-05 23:53:10 413

原创 【hi,elsa,sql】查询sql中每月的数据,并按月显示

错误尝试:之前直接用MONTH 截取datatime的月份,不成功正确:改用EXTRACT函数完成月份的提取,其中count可以换成sum之类计算总和select EXTRACT(MONTH FROM datetime时间字段),COUNT(*)from 表明GROUP BY EXTRACT(MONTH FROM datetime时间字段)...

2018-07-24 17:20:43 941

原创 【Hi Elsa,java is coming】Error:(57, 21) java: 不兼容的类型: java.lang.String无法转换为com.sun.org.apa

原代码:import com.sun.org.apache.xpath.internal.operations.String;public class hello{ static String s="htf"; int storage(String s){ return s.length()*2; } public static voi...

2018-07-24 16:28:02 6054 1

原创 python爬虫scrapy之贷联盟黑名单爬取

1、创建项目scrapy startproject ppd2,爬取单页,主要用xpathspider里面的源码from scrapy.spiders import Spiderfrom scrapy.selector import Selectorfrom ppd.items import BlackItemclass PpdSpider(Spider): name

2017-12-14 15:56:14 959

原创 python爬虫框架scarpy之AttributeError: module 'scrapy' has no attribute 'spider'

用scrapy的spider做爬虫,发现运行有问题。源码:import scrapyclass PpdSpider(scrapy.spider): name='PpdSpider' start_url=['http://www.dailianmeng.com/p2pblacklist/index.html'] def parse(self,response):

2017-12-14 11:19:04 6397 1

原创 scrapy安装win32api,找不到包解决方法

首次运行scrapy,报错:ModuleNotFoundError: No module named 'win32api'我是64位win,要下载这个module,选择适合型号的win32apihttps://sourceforge.net/projects/pywin32/files%2Fpywin32/安装后,还是报错,找不到这个包通过pip安装pypiwi

2017-12-14 10:25:51 487

原创 python爬虫scrapy框架基础知识

基础知识1、爬取网页时要分析网页结构如:https://www.cnblogs.com/#p2,p2是灵活的每一页2、xpath支持正则表达式,可以选择两个方式,一是通过chrome选择Xpath,二是选择class

2017-12-14 09:43:39 267

原创 python爬虫基础知识之requests,读取图片的两只方式,cookies,beautifulsoup

Requests1.        o  发送请求o  传递URL参数o  读取响应内容(文本/二进制/Json)o  定制请求头部o  Post请求o  响应状态码o  重定向和历史o  超时 2.       处理二进制内容导入包 #抓取图片from PIL import Image#处理二进制内容from io import B

2017-12-12 16:53:08 819

原创 python爬虫基础知识之选择器

1          选择器ID1.1         Class属性选择器:可以指定值来选择后代选择器(包含选择器)子选择器  1.2         Xpath使用路径表达式在xml中进行导航  1.3         Xpath和css的区别:Css更简洁Xpath文件路径,看作目录树XPath谓语很强大  1.4   

2017-12-12 16:49:54 587

原创 python 学习基础笔记

一、 运行selenium自动化爬取内容安装Chrome driver 需要权限http://blog.csdn.net/u012359618/article/details/52556127 二、Scrapy框架安装scrapy 三、Python3 默认utf-8 四、For只能用于容器 五、Lambda简化代码结构f( lambda x:x+

2017-12-12 16:44:18 189

原创 sublim不显示结果,搭建python环境

a)        Sublime could not show resultsQ: Environment is not builtA: tools-build system-new build system, then write{ "cmd":["D:/python-3.6.3.exe","-u","$file"], "file_regex":"^[]*file \"(.

2017-12-12 16:41:24 513

原创 python爬取新浪财经的股票信息

import requestsimport threadingdef display_info(code): url = 'http://hq.sinajs.cn/list=' + code response = requests.get(url).text print(response)def single_thread(codes): for code

2017-12-12 16:34:27 6935

原创 python爬虫框架scrapy安装

安装scrapy的时候报错:首先用pip安装:pip install scrapy报错:忘记截图了,简而言之是要C++环境,要我下载查了网上的攻略,用whl安装twisted包,再安装scrapy。(1)安装twistedhttps://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted下载合适自己的包,cp后面代表pytho

2017-12-12 16:30:15 297

原创 python爬虫selenium爬取开开贷黑名单

第一次用selenium爬取黑名单数据,但是不够自动化,页面总长和每页有多少条记录都是手动设置变量添加的,很不智能。这次代码改进了一下内容:(1)把页码有关的信息切出来,自动获取页数(2)查找每页有多少记录(3)利用两个list保存数据,更好维护(4)利用css_selector获取数据,并且改了(5)写成了函数,更加规范(6)抛出异常(7)timeout的问题,原

2017-12-12 16:14:35 774

原创 python爬虫笔记之三要点

python爬虫的三个要点:1,获取种子url。获取的方式很多,css,xml等,处理的方式有dom,需要全部读取内容,再进行筛选,写起来容易读,适合数据量不大的爬虫,Sax流处理模式,一遍读一遍处理,代码不太易读,但是处理效率高,获取到需要的内容后,后面的内容可以不读了。2,解析需要的内容第一,requests,方便的封装包,(1)可以读取cookies,(2)获取url内容,两种方式读取图片如

2017-12-12 09:39:56 368

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除