ElsaRememberAllBug-CSDN博客

原创推荐算法（三）基于标签的算法--CTR预估

1、在工业界，数据量非常大，如果用pandas读入，虽然方便后续数据操作，但占用内存过多。工业界一般存储稀疏数据用LIBSVM。2、在进行建模前，先进行探索，删除脏数据，分析下各个特征的初步效果；对不均衡的样本，下采样，然后有多个分类器，通过bagging合并。3、在排序ranking场景下，评估指标经常是AUC4 时间预处理：映射为不同的时间段5、如果某一列的类别太多，（1）先做...

2019-03-20 15:39:26 525

转载 pandas随机抽样

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)n是要抽取的行数。（例如n=20000时，抽取其中的2W行）frac是抽取的比列。（有一些时候，我们并对具体抽取的行数不关系，我们想抽取其中的百分比，这个时候就可以选择使用frac，例如frac=0.8，...

2019-02-13 11:16:16 1363

转载电商精细化运营的五大关键指标和三个关键思路——笔记

1、品类及SKU多，用户覆盖广，运营难度大；2、客单价偏低，强调留存和复购，强化运营；3、产品设计相对成熟，优化运营时重中之重；4、竞争激烈。要想实现精细化运营，数据分析是必不可少的一个环节。电商网站要提高运营效率，至少需要五大关键指标：活跃用户量、转化率、留存、复购和 GMV 。活跃用户量是一个基本的指标，有 DAU (日活跃用户)、WAU (周活跃用户)和 MAU (月活跃...

2019-01-07 12:02:15 9609

转载互联网金融的客户增长--笔记

一、互联网金融用户四大行为特征第一，流量转化率低；第二，虽然转化率低，但是客单价却很高；第三，用户购买行为有很强周期性；第四，购买行为的强特征，包括购买偏好和购买周期，其中购买周期包含决策期（有大量交互行为）、观察期（购买后查看收益率）、赎回再投期（赎回资金后，产生大量交互行为，为下一次的购买做准备）。二、互联网金融用户运营的三大步骤1.首先，获取可能购买的目标用户，合理配...

2019-01-02 10:29:33 481

原创 sql选取随机的记录

SELECT * FROM (SELECT * FROM login WHERE logintime >=to_date('2018-03-01 00:00:00','yyyy-mm-dd hh24:mi:ss') and logintime <to_date('2018-07-31 23:59:59','yyyy-mm-dd hh24:mi:ss') and CLIENT_VE...

2018-08-14 15:39:30 562

原创 python 合并数据表

读取列表 import pandas as pdunames=['user_id','gender','age','occupation','zip'] users=pd.read_table('E:/DataAnalysis/pydata-book/pydata-book-1st-edition/ch02/movielens/users.dat',sep='::',header...

2018-08-07 00:22:08 577

原创 python数据分析--导入数据

1、读取指定路径的数据读取json类型数据，注意python2和python3的路径表示不一样，我使用的python3中使用 \\ ,而python2中使用反斜杠 /import jsonpath='E:\\DataAnalysis\\pydata-book\\pydata-book-1st-edition\\ch02\\usagov_bitly_data2012-03-16-133...

2018-08-05 23:53:10 413

原创【hi,elsa,sql】查询sql中每月的数据，并按月显示

错误尝试：之前直接用MONTH 截取datatime的月份，不成功正确：改用EXTRACT函数完成月份的提取，其中count可以换成sum之类计算总和select EXTRACT(MONTH FROM datetime时间字段),COUNT(*)from 表明GROUP BY EXTRACT(MONTH FROM datetime时间字段）...

2018-07-24 17:20:43 941

原创【Hi Elsa,java is coming】Error:(57, 21) java: 不兼容的类型: java.lang.String无法转换为com.sun.org.apa

原代码：import com.sun.org.apache.xpath.internal.operations.String;public class hello{ static String s="htf"; int storage(String s){ return s.length()*2; } public static voi...

2018-07-24 16:28:02 6054 1

原创 python爬虫scrapy之贷联盟黑名单爬取

1、创建项目scrapy startproject ppd2，爬取单页，主要用xpathspider里面的源码from scrapy.spiders import Spiderfrom scrapy.selector import Selectorfrom ppd.items import BlackItemclass PpdSpider(Spider): name

2017-12-14 15:56:14 959

原创 python爬虫框架scarpy之AttributeError: module 'scrapy' has no attribute 'spider'

用scrapy的spider做爬虫，发现运行有问题。源码：import scrapyclass PpdSpider(scrapy.spider): name='PpdSpider' start_url=['http://www.dailianmeng.com/p2pblacklist/index.html'] def parse(self,response):

2017-12-14 11:19:04 6397 1

原创 scrapy安装win32api，找不到包解决方法

首次运行scrapy，报错：ModuleNotFoundError: No module named 'win32api'我是64位win，要下载这个module，选择适合型号的win32apihttps://sourceforge.net/projects/pywin32/files%2Fpywin32/安装后，还是报错，找不到这个包通过pip安装pypiwi

2017-12-14 10:25:51 487

原创 python爬虫scrapy框架基础知识

基础知识1、爬取网页时要分析网页结构如：https://www.cnblogs.com/#p2，p2是灵活的每一页2、xpath支持正则表达式，可以选择两个方式，一是通过chrome选择Xpath，二是选择class

2017-12-14 09:43:39 267

原创 python爬虫基础知识之requests，读取图片的两只方式，cookies,beautifulsoup

Requests1. o 发送请求o 传递URL参数o 读取响应内容（文本/二进制/Json）o 定制请求头部o Post请求o 响应状态码o 重定向和历史o 超时 2. 处理二进制内容导入包 #抓取图片from PIL import Image#处理二进制内容from io import B

2017-12-12 16:53:08 819

原创 python爬虫基础知识之选择器

1 选择器ID1.1 Class属性选择器：可以指定值来选择后代选择器（包含选择器）子选择器 1.2 Xpath使用路径表达式在xml中进行导航 1.3 Xpath和css的区别：Css更简洁Xpath文件路径，看作目录树XPath谓语很强大 1.4

2017-12-12 16:49:54 587

原创 python 学习基础笔记

一、运行selenium自动化爬取内容安装Chrome driver 需要权限http://blog.csdn.net/u012359618/article/details/52556127 二、Scrapy框架安装scrapy 三、Python3 默认utf-8 四、For只能用于容器五、Lambda简化代码结构f( lambda x:x+

2017-12-12 16:44:18 189

原创 sublim不显示结果，搭建python环境

a) Sublime could not show resultsQ: Environment is not builtA: tools-build system-new build system, then write{ "cmd":["D:/python-3.6.3.exe","-u","$file"], "file_regex":"^[]*file \"(.

2017-12-12 16:41:24 513

原创 python爬取新浪财经的股票信息

import requestsimport threadingdef display_info(code): url = 'http://hq.sinajs.cn/list=' + code response = requests.get(url).text print(response)def single_thread(codes): for code

2017-12-12 16:34:27 6935

原创 python爬虫框架scrapy安装

安装scrapy的时候报错：首先用pip安装：pip install scrapy报错：忘记截图了，简而言之是要C++环境，要我下载查了网上的攻略，用whl安装twisted包，再安装scrapy。（1）安装twistedhttps://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted下载合适自己的包，cp后面代表pytho

2017-12-12 16:30:15 297

原创 python爬虫selenium爬取开开贷黑名单

第一次用selenium爬取黑名单数据，但是不够自动化，页面总长和每页有多少条记录都是手动设置变量添加的，很不智能。这次代码改进了一下内容：（1）把页码有关的信息切出来，自动获取页数（2）查找每页有多少记录（3）利用两个list保存数据，更好维护（4）利用css_selector获取数据，并且改了（5）写成了函数，更加规范（6）抛出异常（7）timeout的问题，原

2017-12-12 16:14:35 774

python爬虫的三个要点：1，获取种子url。获取的方式很多，css，xml等，处理的方式有dom，需要全部读取内容，再进行筛选，写起来容易读，适合数据量不大的爬虫，Sax流处理模式，一遍读一遍处理，代码不太易读，但是处理效率高，获取到需要的内容后，后面的内容可以不读了。2，解析需要的内容第一，requests，方便的封装包，（1）可以读取cookies，（2）获取url内容，两种方式读取图片如

2017-12-12 09:39:56 368

ElsaRememberAllBug的博客