Lynn Wen-CSDN博客

原创 A/B Testing实践指南01: AB实验入门简介

文章目录0 前言1 在线控制实验专业术语2 为什么做实验？相关性、因果性和可信度3 控制实验所需的因素4 控制实验的三个原则5 滴水穿石6 几个有趣的在线控制实验案例7 延伸阅读8 延伸链接本文主要是基于《Trustworthy Online Controlled Experiments —— A Practical Guide to A/B Testing》的读书分享及实践思考0 前言基于在每家公司每年进行超过20,000次控制实验的实践经验，作者总结了一些多年来遇到的问题、教训和陷阱。分享了如何通

2021-04-20 16:08:42 2818

原创从0到1爬虫学习笔记：05Scrapy实战项目

文章目录1 手机APP抓包爬虫2 阳光热线问政平台爬虫3 新浪网分类资讯爬虫4 Cosplay图片下载器爬虫5 将数据保存在mongoDB6 三种scrapy模拟登陆1 手机APP抓包爬虫（1）item.pyclass DouyuspiderItem(scrapy.Item): name = scrapy.Field()# 存储照片的名字 imagesUrls = scrapy.Field()# 照片的url路径 imagesPath = scrapy.Field()# 照片保

2020-10-16 10:45:03 469

原创解决Pycharm中使用scrapy框架时出现 from .items import Item 报错

在文件菜单选择清除并重启选项，如下图所示位置，即可搞定

2020-10-16 10:34:46 2734 3

原创从0到1爬虫学习笔记：04Scrapy框架

文章目录1 Scrapy概述1.1 Scrapy架构图1.2 Scrapy开发步骤2 入门案例2.1 学习目标2.2 新建项目(scrapy startproject)2.3 明确目标(mySpider/items.py)2.4 制作爬虫（spiders/itcastSpider.py）2.5 保存数据3 Scrapy Shell3.1 简述3.2 启动Scrapy Shell3.3 Selectors选择器3.4 尝试Selector4 Item Pipeline4.1 简述4.2 编写item pip

2020-10-15 21:36:01 1440

原创从0到1爬虫学习笔记：03动态HTML和机器图像识别

文章目录1 动态HTML介绍2 Selenium与PhantomJS3 机器视觉与Tesseract介绍4 处理一些格式规范的文字5 尝试对验证码进行机器识别处理1 动态HTML介绍2 Selenium与PhantomJS3 机器视觉与Tesseract介绍4 处理一些格式规范的文字5 尝试对验证码进行机器识别处理...

2020-10-15 10:56:35 281

原创从0到1爬虫学习笔记：02非结构化数据与结构化数据提取

文章目录1 综述1.1 页面解析和数据提取1.2 非结构化的数据处理1.3 结构化的数据处理2 正则表达式re模块2.1 为什么要学正则表达式2.2 什么是正则表达式2.3 正则表达式匹配规则2.4 python中的re模块2.5 匹配中文2.6 贪婪模式与非贪婪模式3 XPath与lxml类库3.1 什么是XML3.2 XML 和 HTML 的区别3.2 XML的节点关系3.3 XPath相关基础概念3.4 XPath的运算符3.5 lxml库3.6 XPath实例测试3.7 使用XPath的爬虫4 JS

2020-10-14 16:23:31 666

原创从0到1爬虫学习笔记：01爬虫原理与数据抓取

文章目录1 通用爬虫和聚焦爬虫1.1 通用爬虫（搜索引擎）1.2 通用搜索引擎工作原理1.3 通用性搜索引擎的局限1.4 聚焦爬虫2 HTTP和HTTPS2.1 概念简述2.2 HTTP的请求与响应2.3 常用的请求报头2.4 服务器端HTTP响应2.5 Cookie 和 Session2.6 HTTP响应状态码参考：3 str和bytes的区别4 Request的使用4.1 安装方式4.2 基本GET请求4.3 基本POST请求4.4 代理（proxies参数）4.5 私密代理验证（特定格式）和 Web

2020-10-13 17:24:00 742

原创 python编程规范

本文主要是【Python编程规范】的学习笔记1. 优秀代码的特点“好看+安全+高效”可读性：不只是你，还有你身边与你合作的其他开发者可维护性：让你的代码在修改的时候很简单简洁性：不要让你的代码看上去毫无必要的复杂效率性：尽可能的让你的代码获得最快的运行速度明确性：代码能够做到不解自明，在大多数时候，无需为其配备说明文档。简单的代码质量测试：找一个开发者，让他阅读你的代码，并且让他试着说出每一个模块的作用。如果你需要对他解释，那么解释的次数越多，代码的质量就会越低。如果你只是静静的

2020-09-08 10:42:50 471

原创英文停用词表

用SQL创建英文停用词表CREATE TABLE word_noise_input LIFECYCLE 10 AS SELECT wordFROM VALUES('\'d'),('\'ll'),('\'m'),('\'re'),('\'s'),('\'t'),('\'ve'),('ZT'),('ZZ'),('a'),('a\'s'),('able'),('about'),('above'),('abst'),('accordance'),('according'),

2020-06-28 16:15:57 748

原创数据研发学习笔记09：关联规则挖掘及Python实践

文章目录1 引言2 频繁模式与关联规则3 频繁项集的典型挖掘方法3.1 逐层发现算法Apriori3.2 无候选集发现算法FP-growth4 关联规则的生成方法5 关联规则的其他类型6 关联规则的兴趣度的其他度量6.1 Lift度量6.2 cosine度量7 Python实践：关联规则挖掘1 引言关联规则挖掘（Association Rules Mining）或者关联分析（Association Analysis）最早是为了进行购物篮分析而提出的。关联规则可以用于对交叉营销和市场布局进行辅助决策。

2020-05-24 22:31:36 1075

原创数据研发学习笔记08：数据预处理

文章目录1 数据预处理基本思想2 数据规范化2.1 最小-最大法（min-max normalization）2.2 零均值规范化（z-score）3 数据离散化3.1 等距离（equal- distance）分箱3.2 等频率（equal-frequency）分箱3.3 基于熵的离散化方法3.4 ChiMerge方法4 数据清洗4.1 处理缺失数据4.2 处理噪音数据5 特征提取与特征选择5.1 特征提取5.2 特征选择1 数据预处理基本思想数据在搜集时由于各种原因可能存在缺失、错误、不一致等问题

2020-05-23 16:20:34 2670

原创数据研发学习笔记07：利用Python对数据进行描述性统计

文章目录1.1 集中趋势1.1 均值1.2 中位数1.3 众数2 离散趋势2.1 极差2.2 四分位数2.3 四分位数极差（四分位距）2.4 五数概括2.5 箱线图2.6 方差和标准差2.7 DataFrame描述性统计3 基本统计图3.1 条形图3.2 饼状图3.3 折线图3.4 直方图3.5 散点图3.6 分位数-分位数图4 高级绘图4.1 雷达图4.2 词云图5 计算数值属性的三种距离5.1 欧氏距离5.2 曼哈顿距离5.3 明可夫斯基距离1.1 集中趋势1.1 均值1.2 中位数1

2020-05-23 11:18:38 879

原创数据研发学习笔记06：数据挖掘分析方法概述

文章目录1 分类2 聚类3 关联分析4 数值预测5 异常点挖掘6 序列分析7 社会网络分析数据挖掘是从大量数据中自动发现隐含的信息和知识的过程，属于主动分析方法，不需要分析者的先验假设，可以发现未知的知识。1 分类分类（classification）是通过对具有类别的对象的数据集进行学习，概括其主要特征，构建分类模型，根据该模型预测对象的类别的一种数据挖掘和机器学习技术。例如，电信公司的客户可以分为两类，一类是忠诚的，一类是流失的。根据这两类客户的个人特征方面的数据以及在公司的消费方面的数据，利用

2020-05-23 10:16:50 747

原创数据研发学习笔记05：SQL复习梳理

文章目录1 SQL简介1.1 SQL是什么1.2 SQL能做什么1.3 RDBMS2 SQL基本命令2.1 SELECT2.2 WHERE2.3 AND & OR2.4 ORDER BY2.5 INSERT INTO2.6 UPDATE2.7 DELETE3 SQL高级命令1 SQL简介1.1 SQL是什么SQL 是用于访问和处理数据库的标准的计算机语言。SQL，指结构化查询语言，全称是 Structured Query Language。SQL 让您可以访问和处理数据库。SQL 是一

2020-05-20 20:40:27 879 1

原创数据研发学习笔记4.11：大数据之数据可视化

文章目录1 可视化概述1.1 什么是数据可视化1.2 可视化的发展历程1.3 可视化的重要作用2 可视化工具2.1 入门级工具2.2 信息图表工具2.3 地图工具2.4 时间线工具2.5 高级分析工具3 可视化典型案例3.1 全球黑客活动3.2 互联网地图3.3 编程语言之间的影响力关系图3.4 百度迁徙3.5 世界国家健康与财富之间的关系3.6 3D可视化互联网地图APP4 可视化工具实践4.1 D3可视化库使用指南4.2 Easel.ly信息图制作实践4.3 数据可视化之魔镜4.4 数据可视化之ECha

2020-05-18 15:23:25 4481

原创数据研发学习笔记4.10：图计算

文章目录1 图计算简介1.1 图结构数据1.2 传统图计算解决方案的不足之处1.3 图计算通用软件2 Pregel2.1 Pregel简介2.2 Pregel图计算模型2.3 Pregel的C++ API2.4 Pregel的体系结构2.5 Pregel的应用实例2.6 Pregel和MapReduce实现PageRank算法的对比1 图计算简介1.1 图结构数据许多大数据都是以大规模图或网络的形式呈现，如社交网络、传染病传播途径、交通事故对路网的影响。许多非图结构的大数据，也常常会被转换为

2020-05-18 10:38:56 2075

原创数据研发学习笔记4.9：流计算

文章目录1 流计算概述1.1 静态数据和流数据1.2 批量计算和实时计算1.3 流计算概念1.4 流计算与Hadoop1.5 流计算框架2 流计算处理流程3 流计算应用4 流计算开源框架 – Storm5 Spark Streaming6 Samza7 Storm、Spark Streaming和Samza的应用场景1 流计算概述1.1 静态数据和流数据1.2 批量计算和实时计算1.3 流计算概念1.4 流计算与Hadoop1.5 流计算框架2 流计算处理流程3 流计算应用

2020-05-18 09:19:57 1871

原创数据研发学习笔记4.8：大数据之Spark

文章目录1 Spark概述1.1 Spark简介1.2 Scala简介1.3 Spark与Hadoop的比较2 Spark生态系统3 Spark运行架构3.1 基本概念3.2 架构设计3.3 Spark运行基本流程3.4 RDD运行原理4 Spark SQL5 Spark的部署和应用方式5.1 Spark三种部署方式5.2 从Hadoop+Storm架构转向Spark架构5.3 Hadoop和Spark的统一部署6 Spark编程实践6.1 Spark安装6.2 启动Spark Shell6.3 Spark

2020-05-17 15:44:01 985

原创数据研发学习笔记4.7：大数据之数据仓库Hive

文章目录1 数据仓库概念2 Hive简介3 SQL转换成MapReduce作业的原理4 Impala5 Hive编程实践5.1 Hive的安装与配置5.2 Hive的数据类型5.3 Hive基本操作5.4 Hive应用实例5.5 Hive编程的优势1 数据仓库概念数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。根本目的：基于数据仓库的分析结果，支持企业内部的商业分析和决策。传统数据仓库在大数据时代面临的挑战：无法满足快速增长的海量数据存储需求无法有效处

2020-05-17 11:45:01 1415 1

原创数据研发学习笔记4.6：大数据之MapReduce

文章目录1 概述1.1 分布式并行编程1.2 MapReduce模型简介1.3 Map和Reduce函数2 MapReduce体系结构3 MapReduce工作流程3.1 工作流程概述3.2 MapReduce各个执行阶段3.3 Shuffle过程详解3.4 MapReduce应用程序执行过程4 实例分析：WordCount4.1 WordCount程序任务4.2 WordCount设计思路4.3 一个WordCount执行过程的实例5 MapReduce的具体应用6 MapReduce编程实践1 概述

2020-05-17 10:17:49 1178

原创数据研发学习笔记4.5：大数据之云数据库

文章目录1 云数据库概述2 云数据库产品3 云数据库系统架构3.1 UMP系统概述3.2 UMP系统架构3.3 UMP系统功能4 Amazon AWS和云数据库1 云数据库概述（1）云计算是云数据库兴起的基础云计算概念：通过整合、管理、调配分布在网络各处的计算资源，通过互联网以统一界面，同时向大量的用户提供服务。云计算特点：超大规模计算、虚拟化、高可靠性和安全性、通用性、动态扩展性、按需服务、降低成本。云计算应用场景：Google个人云服务；企业应用实例：Animoto、Amazon（2）

2020-05-15 16:46:35 1292

原创数据研发学习笔记4.4：大数据之NoSQL数据库

文章目录1 NoSQL简介2 NoSQL兴起的原因3 NoSQL与关系数据库的比较4 NoSQL的四大类型4.1 键值数据库4.2 列族数据库4.3 文档数据库4.4 图形数据库5 NoSQL的三大基石5.1 CAP5.2 BASE5.3 最终一致性6 从NoSQL到NewSQL数据库7 文档数据库MongoDB7.1 MongoDB简介7.2 MongoDB概念解析7.3 安装MongoDB1 NoSQL简介通常，NoSQL数据库具有以下几个特点：灵活的可扩展性灵活的数据模型与云计算紧密融合

2020-05-15 16:02:50 1490

原创数据研发学习笔记4.3：大数据之分布式数据库HBase

文章目录1概述1.1 从BigTable说起1.2 HBase简介1.3 HBase与传统关系数据库的对比分析2 HBase访问接口3 HBase数据模型3.1 数据模型概述3.2 数据模型相关概念3.3 数据坐标3.4 概念视图3.5 物理视图3.6 面向列的存储4 HBase的实现原理4.1 HBase功能组件4.2 表和Region4.3 Region的定位5 HBase运行机制5.1 HBase系统架构5.2 Region服务器工作原理5.3 Store工作原理5.4 HLog工作原理6 HBase

2020-05-15 15:56:16 1281

原创数据研发学习笔记4.2：大数据之分布式文件系统HDFS

文章目录1 分布式文件系统2 HDFS简介3 HDFS相关概念3.1 块3.2 名称节点和数据节点4 HDFS体系结构4.1结构概述4.2 HDFS命名空间管理4.3 通信协议4.4 客户端4.5 HDFS体系结构的局限性5 HDFS存储原理5.1 冗余数据保存5.2 数据存取策略5.3 数据错误与恢复6 HDFS数据读写过程1 分布式文件系统分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群。与之前使用多个处理器和专用高级硬件的并行化处理装置不通过的是，目前的分布式文

2020-05-15 15:51:33 1084

原创数据研发学习笔记4.1：大数据之概述与处理架构Hadoop

文章目录1 大数据1.1 大数据概述1.2 大数据、云计算与物联网2 大数据处理架构Hadoop2.1 Hadoop简介1 大数据1.1 大数据概述信息科技为大数据时代提供技术支撑：（1）存储设备容量不断增加（2）CPU处理能力大幅提升（3）网络带宽不断增加数据产生方式的变革促成大数据时代的来临：大数据的特点：数据量大、数据类型繁多（结构化数据10%、非结构化数据90%）、处理速度快、价值密度低。大数据关键技术：分布式存储：解决海量数据的存储问题；分布式处理：解决海量数据的处理问题

2020-05-13 11:23:12 687

原创数据研发学习笔记03：8种经典的统计学谬论

文章目录1 辛普森悖论 Simpson's Pradox1.1 概念1.2 案例1.3 避免方式2 基本比率谬误 Base Rate Fallacy2.1 概念2.2 案例2.3 避免方式3 伯克森悖论 Berkson's Paradox3.1 概念3.2 案例3.3 避免方式4 罗杰斯现象 Will Rogers Phenomenon4.1 概念4.2 案例4.3 避免方式5 幸存者偏差5.1 概念5.2 案例5.3 避免方式6 赌徒谬论 Gambler's Fallacy6.1 概念6.2 案例6.3

2020-05-13 11:17:19 5806

原创数据研发学习笔记02：用户画像详解

文章目录1 用户画像本文主要围绕以下问题展开相应的数据研发相关知识的梳理与总结：用户画像是什么？用于解决什么场景下什么问题？如果让你设计一套用户画像，你的设计思路是什么？1 用户画像...

2020-05-13 09:42:45 1965

原创 Python复习梳理（更新中）

文章目录1 Python简介1.1 Python概述1.2 Python特点1.3 Python应用1.4 Python集成开发环境IDE2 Python基本知识2.1 输入输出2.2 注释与缩进2.3 语法基础1 Python简介Python3 | 菜鸟教程1.1 Python概述Python是一种解释型的、面向对象的、带有动态语义的高级程序设计语言。第1个Python编译器于19...

2020-05-12 21:29:56 591

原创数据研发学习笔记01：数据仓库

文章目录1 数据仓库1.1 数据仓库由来1.2 数据仓库定义1.3 数据仓库特点1.4 构建数据仓库1.5 数据库和数据仓库的区别2 OLTP与OLAP3 数据仓库的设计3.1 数据库设计和数据仓库设计3.2 数据仓库设计的原则3.3 数据仓库设计的三级模型3.4 ETL4 离线数仓和实时数仓4.1 离线数仓4.2 实时数仓4.3 两者区别5 分布式计算 Google Dataflow5.1 概述5.2 事件时间与处理时间5.3 Dataflow三大模型本文主要围绕以下问题展开相应的数据研发相关知识的梳理

2020-05-12 21:27:52 648

空空如也

空空如也