自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 推荐系统-Hive基础

Hive基本操作基本概念功能说明架构hive和hadoop数据模型安装部署安装启动基本操作hive的内部表和外部表分区表动态分区Hive函数Hive内置运算符和内置函数Hive自定义函数综合案例基本概念功能说明操作接口采用类SQL法,提供快速开发的能力避免了去写MapReduce,减少开发人员的学习成本功能扩展很方便架构hive和hadoopHive利用HDFS存储数据,利用MapReduce查询分析数据注:Hive是数据仓库工具,没有集群的概念。只需要在hadoop集群Mas

2022-09-01 16:59:59 513

原创 NLP-深度学习和神经网络

深度学习深度学习机器学习和深度学习的区别特征提取数据量应用场景神经网络人工神经网络神经元的概念单层神经网络感知机多层神经网络激活函数深度学习深度学习是机器学习的分支,是一种以人工神经网络为架构,对数据进行特征学习的算法。机器学习和深度学习的区别特征提取特征提取的角度出发:机器学习需要有人工的特征提取的过程深度学习没有复杂的人工特征提取的过程,特征提取的过程可以通过深度神经网络自动完成数据量数据量:深度学习需要大量的训练数据集,会有更高的效果深度学习训练深度神经网络需要大量的算力

2020-09-26 15:22:35 739

原创 自动化发报表

自动化发报表文件目录自动压缩发邮件sql和pandas处理保存文件目录报表数据存储目录自动压缩发邮件import timeimport zipfileimport osimport shutilimport smtplibfrom email.mime.multipart import MIMEMultipartfrom email.mime.base import MIMEBase #附件from email.mime.text import MIMETextfrom email

2020-09-04 22:50:32 358

原创 爬虫初级面试准备

爬虫初级面试准备get和post请求正则提取案例scrapy工作流程scrapy优点缺点爬虫选择mongodb存储代理response.text和response.contentget和post请求import requestsurl = 'https://github.com/USER_NAME'# 构造请求头字典headers = { # 从浏览器中复制过来的User-Agent 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win6

2020-08-01 10:50:06 384 1

原创 Linux操作

Linux操作基础命令命令查看目录命令的使用切换目录命令创建、删除文件及目录命令复制、移动文件及目录命令终端命令格式的组成命令选项查看命令帮助ls命令选项mkdir命令选项rm命令选项cp命令选项mv命令选项高级命令重定向命令查看文件内容命令管道(|)命令的使用连接命令文本搜索命令!!查找文件命令压缩和解压缩命令tar命令及选项的使用zip和unzip命令及选项的使用文件权限命令!!!获取管理员权限的相关命令用户相关操作用户组相关操作远程登录、远程拷贝命令补充基础命令命令查看目录命令的使用命

2020-08-01 10:00:51 358

原创 数据分析和数据挖掘

数据分析-聚类分析聚类分析分析方法技术问题年龄收入分群案例聚类分析总结回归分析聚类分析分析方法技术问题均值的问题 kmeans 更新中心点 均值点异常数据会影响均值 要去异常量纲的问题 —要做标准化 — 基于距离的数据量大的问题m个样本,n个特征,k个中心点,t次迭代 算法复杂度 O(tkm*n)mini-batch-kmeans来解决数据量大的问题结论:MiniBatchKMeans在基本保持了K-Means原有较高类别识别率的前提下,其计算效率的提升非常明显

2020-07-22 11:30:36 581

原创 数据分析-sql基本操作

SQL数据分析介绍sql常见操作回顾聚合函数使用分组子查询多表联结查询组合查询CASE表达式利用SQL对淘宝用户行为进行数据分析数据导入与清洗用户行为分析数据总体情况用户行为转化情况分析用户行为习惯分析用户类目偏好分析介绍sql常见操作回顾聚合函数使用1.计算价格的平均值select avg(Price) as avg_price from house_price2.计算数据的总量select count(*) from house_price #计算的是所有数据,包含空的行selec

2020-07-22 10:14:05 586

原创 数据分析-sql高级

SQL高级操作Sql高级操作取出数据并显示行号Sql高级操作取出数据并显示行号select p_name,p_type,p_view from products ORDER BY p_view desc

2020-07-22 10:10:37 394

原创 数据分析-pandas数据处理

数据分析-pandas数据处理概述业务建模流程特征工程数据清洗缺失值处理异常值(极值)处理重复值处理python数据清洗案例数值型数据的处理标准化&&归一化pca降维离散化/分箱/分桶----将数据简化分类数据的处理时间类型数据的处理样本类别分布不均衡Python处理样本不均衡案例smote上采样randomundersampler数据抽样概述业务建模流程将业务抽象为分类or回归问题定义标签,得到y选取合适的样本,并匹配出全部的信息作为特征的来源特征工程 + 模型训练 + 模型

2020-07-16 11:15:28 881

原创 数据分析-Excel基本操作(简)

Excel基本函数

2020-07-13 09:11:46 384

原创 机器学习算法框架流程

Machine Learning and algorithm K Nearest NeighborGridSearchCValgorithm )K Nearest Neighborimport pandas as pdimport numpy as npfrom sklearn.neighbors import KNeighborsClassifier # classifierfrom sklearn.preprocessing import StandardScaler # standar

2020-07-05 21:05:04 610 2

原创 数据收集-appium的使用

数据收集-appium的使用

2020-06-26 10:33:28 327

原创 数据收集-scrapy爬虫框架(三)

splash组件、日志信息配置、scrapyd部署scrapy项目、gerapy爬虫管理、crawlspider类使用

2020-06-26 10:33:10 383

原创 数据收集-scrapy爬虫框架(二)

模拟登陆/管道使用/中间件/scrapy_redis

2020-06-26 10:32:47 436

原创 数据收集-scrapy爬虫框架(一)

概念、作用、工作流程、基本使用、建模、构造发送请求

2020-06-26 10:32:21 758

原创 数据收集-selenium

selenium介绍chrome浏览器phantomjs无界面浏览器无头浏览器与有头浏览器作用和工作原理安装使用提取数据driver对象的常用属性和方法driver对象定位标签元素获取标签对象的方法标签对象提取文本内容和属性值标签页的切换switch_to切换frame标签对cookie的处理获取cookie删除cookie控制浏览器执行js代码页面等待强制等待(了解)隐式等待显式等待(了解)手动实现页面等待开启无界面模式使用代理ip替换user-agent介绍Selenium是一个Web的自动化测试工

2020-06-26 10:31:14 382

原创 数据收集-mongodb数据库

mongodb数据库介绍mongodbSQL和NoSQL的主要区别数据之间无关联性mongodb的优势安装简单使用服务端的启动测试方式启动生产环境正式的启动方式客户端启动简单使用mongodb数据库的命令mongodb集合的命令常见的数据类型增删改查介绍mongodbmongodb 是一个功能最丰富的NoSQL非关系数据库。由 C++ 语言编写。mongodb 本身提供S端存储数据,即server;也提供C端操作处理(如查询等)数据,即client。SQL和NoSQL的主要区别在SQL中层

2020-06-26 10:30:48 705

原创 数据收集-数据提取

数据提取响应内容的分类xml和html的区别xmlxml和html的区别常用数据解析方法jsonpath模块使用方法案例练习lxml模块和xpath语法谷歌浏览器xpath helper插件安装xpath的节点关系xpath语法基础节点选择语法xpath定位节点以及提取属性或文本内容的语法语法练习节点修饰语法响应内容的分类结构化的响应内容json字符串可以使用re、json等模块来提取特定数据xml字符串可以使用re、lxml等模块来提取特定数据非结构化的响应内容html字符

2020-06-26 10:30:08 1065

原创 数据收集-抓包与反爬

抓包与反爬常见的反爬手段反爬原因反爬常见概念反爬的三个方向基于身份识别进行反爬通过headers字段来反爬通过请求参数来反爬常见基于爬虫行为进行反爬基于请求频率或总请求数量根据爬取行为进行反爬基于数据加密进行反爬对响应中含有的数据进行特殊化处理验证码处理图片验证码图片识别引擎tesseract图片识别引擎环境的安装图片识别引擎的使用图片识别引擎的使用扩展打码平台常见的打码平台云打码的使用常见的验证码的种类chrome浏览器使用方法新建隐身窗口network的更多功能Perserve logfilter过滤观

2020-06-26 10:29:42 2292

原创 爬虫数据解析与提取

爬虫数据解析与提取前言正则表达式语法列表语法案例Xpath规则运用xpath规则Xpath谓语条件(Predicates)xpath轴CSS选择器规则与运用BeautifulSoup4模块JsonPath规则与运用json规则python中运行js内容不全,暂不想写前言进行爬虫数据解析与提取方法爬虫数据四大解析规则:正则表达式规则、Xpath规则、CSS选择器规则、JsonPath规则前端的三大语法:HTML、CSS、JavaScript正则表达式语法列表普通字符语法预定义字符集语

2020-06-23 19:21:19 1134

原创 机器学习-算法总结图

机器学习-算法总结图加载数据&数据清洗特征工程数据分割模型训练线性模型线性回归逻辑回归非线性模型决策树集成学习无监督模型kmeans聚类拟合问题模型评估模型调优模型保存加载数据&数据清洗特征工程数据分割模型训练线性模型线性回归逻辑回归非线性模型决策树集成学习无监督模型kmeans聚类拟合问题模型评估模型调优模型保存...

2020-06-20 11:28:15 383

原创 爬虫基础和requests模块

爬虫概述、http协议复习、requests模块

2020-06-06 11:01:40 436

原创 机器学习-新闻分类案例

新闻分类案例项目,对文章进行分词,用TF-IDF和词袋,对文章进行分词,用TF-IDF和词袋表示文档特征,训练word2vec模型,完整过程,项目集成调用...

2020-06-05 21:08:37 1044

原创 机器学习-聚类算法

聚类算法、模型评估、算法优化、特征降维、kmeans/

2020-06-05 21:08:11 364

原创 机器学习-线性回归

线性回归线性回归线性回归线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归。from sklearn.linear_model import LinearRegression#获取数据x = [[80, 86],[82, 80],[85, 78],[90, 90],[86, 82],[82, 90],[78, 80

2020-06-05 21:07:26 2093

原创 机器学习-k近邻算法

机器学习-算法篇k近邻算法简介初步使用距离度量欧氏距离(Euclidean Distance)曼哈顿距离(Manhattan Distance)切比雪夫距离 (Chebyshev Distance)闵可夫斯基距离(Minkowski Distance)标准化欧氏距离 (Standardized EuclideanDistance)余弦距离(Cosine Distance)汉明距离(Hamming Distance)杰卡德距离(Jaccard Distance)马氏距离(Mahalanobis Distanc

2020-06-05 21:07:16 2082

原创 机器学习-集成学习

集成学习算法集成学习集成学习中boosting和BaggingBaggingBagging集成原理随机森林构造过程随机森林api介绍随机森林预测案例Boostingboosting集成原理GBDT(了解)XGBoost【了解】集成学习集成学习通过建立几个模型来解决单一预测问题。工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。集成学习中boosting和BaggingBaggingBagging集成原理随机森林构造过程随

2020-06-05 21:06:48 479

原创 机器学习-决策树算法

决策树算法决策树算法简介决策树分类原理熵Entropy信息增益案例信息增益率案例基尼值和基尼指数案例总结常见决策树的启发函数比较其他cart剪枝常用剪枝方法特征工程-特征提取决策树算法简介决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。决策树定义:是一种树形结构,本质是一颗由多个判断节点组成的树决策树分类原理熵Entropy物理学上,熵 Entropy 是“混乱”程度的量度。

2020-06-05 21:04:48 567

原创 机器学习-逻辑回归

逻辑回归逻辑回归介绍逻辑回归的原理损失以及优化逻辑回归api介绍案例:癌症分类预测分类评估方法混淆矩阵精确率(Precision)与召回率(Recall)F1-score分类评估报告apiROC曲线与AUC指标TPR与FPRROC曲线AUC指标AUC计算APIROC曲线的绘制逻辑回归介绍应用场景:广告点击率、是否为垃圾邮件、是否患病、金融诈骗、虚假账号逻辑回归的原理输入激活函数损失以及优化逻辑回归的损失,称之为对数似然损失损失函数值,越小越好当y=1时,h​θ (x)值越大越好;当

2020-06-05 21:04:13 260

原创 科学计算库Pandas用法

科学计算库Pandas用法介绍数据结构SeriesDataFrameMultiIndex介绍以Numpy为基础,借力Numpy模块在计算方面性能高的优势,基于matplotlib,能够简便的画图,独特的数据结构。增强图表可读性便捷的数据处理能力读取文件方便封装了Matplotlib、Numpy的画图和计算数据结构Pandas中一共有三种数据结构,分别为:Series、DataFrame和MultiIndex(老版本中叫Panel )。Series是一维数据结构,DataFrame是二维

2020-06-05 21:02:35 231

原创 科学计算库之pandas高级

这里写自定义目录标题时间序列处理合并分组&聚合透视表和交叉表透视表交叉表crosstab时间序列处理合并分组&聚合DataFrame.groupby(key, as_index=False)透视表和交叉表透视表透视表是一种可以对数据动态排布并且分类汇总的表格格式。而在pandas中它被称作pivot_table。pandas.pivot_table(data, values=None, index=None, columns=None,aggfunc=‘mean’, marg

2020-06-05 21:01:56 210

原创 Matplotlib绘图和jupyter notebook使用

机器学习之科学计算库

2020-06-04 22:47:17 2954 1

原创 科学计算库Numpy用法

Numpynumpy介绍ndarray介绍N维数组-ndarrayndarray的形状基本操作ndarray运算数组间运算矩阵运算numpy介绍用于快速处理任意维度的数组。Numpy支持常见的数组和矩阵操作。对于同样的数值计算任务,使用Numpy比直接使用Python要简洁的多。Numpy使用ndarray对象来处理多维数组,该对象是一个快速而灵活的大数据容器。ndarray介绍NumPy提供了一个N维数组类型ndarray用来存储相同类型数据的集合ndarray的优势内存块风格

2020-06-04 22:46:41 263

原创 pipeline、异步方案 redis 和Celery、页面静态化

异步方案 redis 和 Celery异步方案 redis 和 Celery生产者消费者设计模式Celery 介绍和使用介绍安装创建实例并且配置定义任务启动消费者( celery充当 )补充 celery worker 的工作模式异步方案 redis 和 Celery生产者消费者设计模式中间人(broker)搭桥,保证两个业务没有直接关联.这一解耦方式为:生产者消费者设计模式执行的流程:生产者生成消息,缓存到消息队列中,消费者读取消息队列中的消息并执行。由美多商城生成发送短信消息,缓存到

2020-06-04 22:41:30 420

原创 【高级】ElasticSearch

ElasticSearchElasticsearchpython操作ES (重点)文章搜索接口发布文章拼写纠错自动补全 (重点)搜索建议接口单元测试介绍断言gunicornSupervisor (重点)Elasticsearchpython操作ES (重点)安装 pip install elasticsearch5 # 安装对应版本的模块创建ES对象from elasticsearch5 import Elasticsearch # elasticsearch集群服务器的地

2020-06-04 08:47:20 166

原创 Python基础·一

Python基础·一基础知识计算机了解python了解注释算数运算符变量命名格式化输出语句条件语句逻辑运算符break 和continuewhile 循环嵌套高级变量类型列表元组字典字符串字符串的切片无序集合set公共语法函数强化和进阶可变类型与不可变类型列表推导式匿名函数递归函数基础知识计算机了解硬件系统软件系统:系统软件和应用软件,是指计算机证运行所需的各种各样的计算机程序。python了解Python的作者是Guido van Rossum(龟叔)Python正式诞生于1991年优

2020-05-30 10:39:59 429

原创 Django学习基础笔记(二)

Django学习基础笔记中间件中间件的定义方法多个中间件模板CSRF 攻击数据库ORM 框架数据库配置定义模型类Shell 演示数据库操作增删改查过滤查询F 对象 和 Q 对象聚合函数和排序关联查询其他补充说明添加测试数据字段类型(略)选项(略)外键中间件Django 的中间件是一个轻量级、底层的插件系统,可以介入请求和响应处理过程,修改 Django 的输入或输出。在子应用中定义,对全局视...

2020-05-01 11:29:48 322

原创 Django学习基础笔记(一)

Django学习笔记Web 应用程序处理流程Django 框架内部设计模式工程搭建windows搭建虚拟环境环境安装创建工程Pycharm 启动项目创建子应用Web 应用程序处理流程图Django 框架内部设计模式图工程搭建windows搭建虚拟环境一、安装Virtualenv• 1、打开 CMD命令行• 2、pip安装模块pip install virtualenv# 豆瓣...

2020-05-01 11:28:34 495

原创 正则表达式基础知识必备

正则表达式正则表达式认识re模块匹配单个字符匹配单个字符代码案例匹配多个字符匹配多个字符代码案例匹配开头和结尾匹配开头和结尾代码案例匹配分组匹配分组代码案例正则表达式认识想匹配或者查找符合某些规则的字符串一般需要使用正则表达式,正则表达式就是记录文本规则的代码。re模块匹配单个字符代码功能.匹配任意1个字符(除了\n)[ ]匹配[ ]中列举的字符\d...

2020-05-01 11:22:43 279

原创 闭包和装饰器python中使用推导

装饰器 装饰器定义代码推导装饰器定义不改变原先代码的基础上,给已有函数增加额外功能的函数,它本质上就是一个闭包函数。装饰器的特点:不修改已有函数的源代码不修改已有函数的调用方式给已有函数增加额外的功能代码推导# 装饰器作用:在不改变原先函数代码的基础上,增加额外的功能。# 1.闭包def set_fun(func): # func让函数调用的时候把需要装饰的函数传入...

2020-05-01 11:20:52 240

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除