自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 flag~

从5月份开始想要

2021-07-28 15:16:42 104

原创 4用户画像~知识点在更~

维度:八字原则:用户消费行为分析用户标签:性别、年龄、地域、收入、学历、职业等消费标签:消费习惯、购买意向、是否对促销敏感行为标签:时间段、频次、时长、收藏、点击、喜欢、评分用户生命周期的三个阶段获客:如何进行拉新,通过更精准的营销获取客户;粘客:个性化推荐,搜索排序,场景运营等;留客:流失率预测,分析关键节点降低流失率。聚类算法kmeansEMGMM数据规范化z-score 标准化新数值 = (原数值 - 均值)/ 标准差评价指标...

2021-07-13 08:51:53 160

原创 3.推荐系统~知识点在更~

推荐系统本质:信息过滤系统流程:相似-推断Content-based filtering最早人们使用的是基于内容的推荐方法,根据物品的属性打标签。再计算相似度Collaborative filtering协同过滤通过数据找到相似的用户,通过行为和喜欢的内容推荐可能感兴趣的物品或内容。相似:user-based 两个人共同喜欢的东西越多,越相似Item-based 共同喜欢的人越多 物品越相似推断:UserCF 兴趣相投的用户,推荐喜欢的商品ItemCF给用户推荐那些和他们之

2021-07-13 08:51:31 108

原创 2常见规划问题~知识点更完~代码待更

常见规划问题线性LP:linear programming 线性规划:研究线性约束条件下线性目标函数的极值问题ILP:Integer Linear Programimng整数线性规划:全部决策变量为整数MIP:Mixed Integer Programming 混合整数规划VRP:Vehicle Routing Problem 车辆路径问题列出约束条件及目标函数画出约束条件所表示的可行域在可行域内求目标函数的最优解及最优解车辆路径规划经典问题:旅行商人问题TSP车辆路径问题VR

2021-07-13 08:51:06 118

原创 1评分卡模型相关~知识点已更完~代码待更

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博

2021-07-13 08:50:28 195 1

原创 spark更新中

基于内存,通用、可扩展的计算引擎基于mr算法实现分布式计算不同之处时job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,更好地适用于数据挖掘与机器学习,后期需要使用spark对接外部地数据源。特征速度快采用最先进的DAG调度算法原因基于内存:job结果可以保存在内存中,但是也会产生shuffle阶段任务以线程方式易用性可通过不同礼物通用性是一个生态系统,包含很多模块sparksql:通过sql去开发spark程序做离线分析sparkStreaming:主要用来解决

2021-07-13 00:49:58 126 1

原创 7 scala

在交互式解释器中,先输入paste,然后写多行代码,按ctrl d结束输入变量声明//val/var 变量名称:变量类型 = 初始值//val值不可修改//var可重新赋值val a:Int = 10val c =20 //变量的类型可以是显式的类型也可以不声明,支持类型推断。//惰性变量lazy,实现延迟加载(懒加载)//不可变变量 只有在调用惰性变量时才会实例化这个变量//lazy val 变量名 = 表达式基础类型类型说明Byte8位带符号整数Shor

2021-03-27 15:05:33 132

原创 出行特征分析与挖掘思路

目的1 分析乘客出行行为特征,了解乘客行为规律,帮助决策者改进服务策略和优化公交运行线路,满足乘客需求。2 预测短时出行客流量。乘客出行特征分析1 从客流量角度分析乘客出行的时空特征。可视化分析交通客流的时间特征和空间特征时间聚类方法计算客流量根据不同站点的客流特征,利用空间聚类的方法对地铁站点进行分类,分析城市功能分区和评价轨道交通基础设施的发展分析客流特性,评价地铁网络运行时间的可靠性2 从乘客出行特征出发,研究乘客出行模式类别及其动态变化特性。DBSCAN算法挖掘智能.

2021-03-23 14:10:33 1381

原创 6数据仓库

warehouse面向主题的、集成的、非易失的、随时间变化的。what面向主题数据是按照一定主题域进行组织。主题是抽象的概念,是指用户使用数据仓据进行决策时所关心的重点方面。例如:银行的数据仓库主题:客户客户数据来源:银行储蓄数据库、信用卡数据库等进行整合,操作型数据库的数据组织相向事务处理任务,各个业务系统之间各自分离。集成数据库之间互相独立,往往异构,数据仓库的数据对原有分散的数据库数据抽取、清理的基础上,加工整合得到,必须消除数据的不一致性,保证全局一致性。从面向应用到面向主题。

2021-03-23 12:41:54 368 1

原创 shell入门

作用是解释执行用户的命令。输入一条命令,shell就解释一条命令,交互式。shell还有一种执行命令的方式:Batch批处理,用户事先写一个shell脚本Script,内容是多条命令。shell脚本是解释执行的,不需要编译,shell程序从脚本中一行读取并执行这些命令。命令解释器程序设计语言用户登录Linux时需要执行的几个文件:/etc/profile -> (~/.bash_profile |~/.bash_login | ~/.profile) -> ~/.bashrc

2021-03-21 02:49:19 137

原创 linux基础学习

Linux系统中一切皆文件。目录结构/bin 二进制可执行命令/dev设备特殊文件/etc系统管理和配置文件/etc/re.d启动的配置文件和脚本/home 用户主目录的基点,比如用户user的主目录就是/home/user/lib标准程序设计库,又叫做动态链接共享库,作用类似windows里的.dll文件/sbin超级管理命令,这里存放的是系统管理员使用的管理程序/tmp 公共的临时文件存储点/root 系统管理员的主目录/mnt系统提供这个目录是让用户临时挂在其他的文件系统/l

2021-03-20 12:32:43 125

原创 9 中间件

缓存的分类:• 本地缓存• 分布式缓存缓存与数据库之间的同步方式应用与缓存的同步策略• 双写:数据库和 Redis 各一份(一致性问题但是时间快)• 消息队列:写数据库和消息队列,消息队列再同步到 Redis• MySQL binlog:使用 MySQL binlog 重放同步到 Redis(线性问题)要根据具体的业务要求来进行选择架构中使用缓存有可能带来的问题• 缓存穿透(大量查询未记录元素,数据库压力大,解决方式空值可用null进行记录)• 缓存并发(大量访问还未加载到内存的元素

2021-03-17 19:20:02 52

原创 12 对应题目和链接

六字符串Boyer-Moore算法sunday算法kmp视频KMP博文第六周作业动态规划排序算法十大排序算法九种经典排序算法可视化动画6分钟15种排序布隆过滤器布隆过滤器的原理和实现BloomFilter布隆过滤器解决缓存击穿、垃圾邮件识别、集合判重布隆过滤器的官方实现五位运算减枝双向BFS启发式搜索二进制中最短路径A*解法8 puzzle解法比较字典树 并查集作业四动态规划本周三分治回溯DFS bfs

2021-03-17 12:22:44 52

原创 11 字符串

字符串匹配问题1.暴力法2.Rabin-Karp算法3.KMP算法模板:Rabin-Karp算法的思想:1.假设子串的长度为M,目标为N2.计算子串的hash值hash_pat3.计算目标子串中每个长度为M的子串的hash值(N-M+1次)4.比较hash值,值不同,必不匹配。相同,朴素算法。KMP当子串与目标字符串不匹配时,设法利用已知信息,不要把“搜索位置”移回已经比较过的位置,继续把它向后移,提高效率。...

2021-03-17 10:39:18 220

原创 10 排序算法

比较类排序:通过比较来决定元素间的相对次序,由于其时间复杂度不能突破O(nlogn),因此也称为非线性时间比较类排序。非比较类排序:不通过比较来决定元素间的相对次序,它可以突破基于比较排序的时间下界,以线性时间运行,因此也称为线性时间非比较类排序。主要考nlogn的初级排序 - O(n^2)选择排序(Selection Sort)每次找最小值,然后放到待排序数组的起始位置。插入排序(Insertion Sort)从前到后逐步构建有序序列;对于未排序数据,在已排序序列中从后向.

2021-03-17 10:23:09 250

原创 9 位运算 布隆过滤器 LRU

c=a^b交换两位数N皇后问题的位运算解法

2021-03-17 09:45:03 97

原创 8 高级树 AVL树 红黑树

AVL树Balance Factor(平衡因子):是它的左子树的高度减去它的右子树的高度(有时相反)。balance factor = {-1, 0, 1}通过旋转操作来进行平衡(四种)不足:结点需要存储额外信息、且调整次数频繁左旋:右右子树右旋:左左子树左右旋:左右子树右左旋: 右左子树红黑树红黑树是一种近似平衡的二叉搜索树(Binary Search Tree),它能够确保任何一个结点的左右子树的高度差小于两倍。具体来说,红黑树是满足如下条件的二叉搜索树:• 每个结点要么

2021-03-17 01:11:28 136

原创 6高级搜索-回溯-双向BFS-A*search

回溯八皇后代码def solveNQueens(self, n): if n < 1: return [] self.result = [] self.cols = set(); self.pie = set(); self.na = set() self.DFS(n, 0, []) return self._generate_result(n)def DFS(self, n, row, cur_state): # recursion terminator i

2021-03-17 01:03:23 96

原创 7字典树 并查集

字典树Trie单词查找树或键树。典型应用于统计和排序大量的字符串。最大限度地减少无谓字符串的比较,查询效率比哈希表高。特点结点本身不存完整单词;从根结点到某一结点,路径上经过的字符连接起来,为该结点对应的字符串;每个结点的所有子结点路径代表的字符都不相同核心思想Trie 树的核心思想是空间换时间。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。class Trie(object): def __init__(self): self.root = {}

2021-03-17 01:02:46 130

原创 5 递归 分治 回溯 贪心算法 二分查找 动态规划

递归#pythondef recursion(level, param1,param2,...): #recursion terminator if level > MAX_LEVEL: process_result return #process logic in current level process(level, data...) #drill down self.recursion(level + 1,p1,...) #reverse the current le

2021-03-17 00:16:09 202

原创 4树 二叉树 二叉搜索树 堆

#pythonclass TreeNode: def __init__(self, val): self.val = val self.left, self.right = None, Nonepublic class TreeNode { public int val; public TreeNode left, right; public TreeNode(int val) { this.val = val; this.left = null; this.right = n

2021-03-15 08:58:12 101

原创 5 flume sqoop azkaban

flume在一个完整的离线大数据处理系统中,除了hdfs+mr+hive组成的分析系统的核心,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,在hadoop生态系统中都有便捷的开源框架。Flume是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件、socket数据包、文件、文件夹、kafka等各种形式的源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中。核心的角色agent,flume采集系

2021-03-14 14:00:55 134

原创 3.HBase

HBase建立在HDFS之上,提供高可靠性、高性能列存储、列存储、可伸缩、实时读写的分布式数据库系统。实时读写、随机访问。海量存储:可以存储大批量数据列式存储极易扩展高并发稀疏:列为空不占用存储空间数据的多版本:版本号式插入数据的时间戳数据类型单一:所有数据在Hbase中以字节数组存储HBase的数据模型rowkey行键table的主键,table中的记录也是按照rowkey字典序进行排序的。Column Family列族HBase的每个列,都归属于某个列族列族是表的

2021-03-14 11:08:46 173 2

原创 4 ZooKeeper

What?chubby的一个开源实现版主从架构的分布式框架,对娶她的分布式 框架提供协调服务。提供类似linux文件系统(有目录节点树)的简版文件系统来存储数据。维护和监控存储数据的状态变化,通过监控到达基于数据的集群管理主要用来解决分布式集群中应用系统的一致性问题leader为主,follower为从zKCli命令行# 启动ZooKeeper集群;在ZooKeeper集群中的每个节点执行此命令${ZK_HOME}/bin/zkServer.sh start# 停止ZooKeepe

2021-03-11 19:37:03 265

原创 2.Hive

数据仓库Data Warehouse可简称DW或者DWH目的:构建面向分析的集成化数据环境,出于分析性报告和决策支持的目的而创建。仓库:数据来源于外部,并且开放给外部应用,不生产小号数据,不是工厂。特征面向主题subject-oriented集成的integrated非易失的non-volatile时变的time-variant数据集合数据仓库和数据库的区别操作型处理,也叫联机事务处理OLTP(on-line transaction processing)也可称面向交易的处理系统。针对

2021-03-11 09:46:23 163

原创 1.hadoop整理

HDFS分布式文件系统2003、2004年谷歌发表的两篇论文:分布式文件系统(GFS),可用于处理海量网页的存储。分布式计算架构mapreduce,用于处理海量网页的索引计算问题。hadoop由三个模块组成:分布式存储HDFS 分布式计算MapReduce 资源调度引擎Yarn关键词:分布式 主从架构HDFS模块:namenode:主节点,主要负责集群的管理以及元数据信息管理(整个文件系统的元数据,以及每个路径文件所对应的数据块信息)datanode:从节点,主要负责存储用户数据s

2021-03-10 00:05:17 161

原创 3.栈 队列 哈希表 映射 集合

Stack:先入后出;添加、删除皆为 O(1)最近相关性Queue:先入先出;添加、删除皆为 O(1)先来后到双端队列:deque优先队列 priority queue插入O1 取出logn哈希表(Hash table),也叫散列表,是根据关键码值(Key value)而直接进行访问的数据结构。它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫作散列函数(Hash Function),存放记录的数组叫作哈希表(或散列表)。java•Map:key-va

2021-02-23 10:27:53 109

原创 8.高阶语法

# 问题1: a、b、c三个id是否相同a = 123b = 123c = aprint(id(a))print(id(b))print(id(c))#一样############## 问题2: a、b、c的值分别是多少a = 456print(id(a))c = 789c = b = a############## 问题3: x、y的值分别是什么x = [1,2,3]y = xx.append(4)print(x)print(y)#【1,2,3,4】一样#####

2021-02-01 23:52:34 113

原创 7.面向对象进阶

面向对象编程的特性封装• 将内容封装到某处• 从某处调用被封装的内容继承• 基本继承• 多重继承重载• Python 无法在语法层面实现数据类型重载,需要在代码逻辑上实现• Python 可以实现参数个数重载多态• Pyhon 不支持 Java 和 C# 这一类强类型语言中多态的写法,• Python 使用“鸭子类型”新式类新式类和经典类的区别• 当前类或者父类继承了 object 类,那么该类便是新式类,否则便是经典类object 和 type 的关系• object 和

2021-01-30 18:38:22 94

原创 Django系列一开发环境配置

Django :开放源代码的 Web 应⽤框架MTV框架模式模型 Model模板 Template视图 View特点强调快速开发和代码复用DRY(DO NOT REPEAT YOURSELF)组件丰富:ORM映射类来构建数据模型URL统一资源定位器支持正则表达式模板可继承内置用户认证 提供用户认证和权限功能admin管理系统内置表单模型 Cache缓存系统 国际化系统安装pip install --upgrade django==2.2.13LTS版本 稳定 最新的3.im

2021-01-28 16:20:00 94

原创 7数据库调优

数据库最后一篇调优原则不是万能的 升级硬件效果更显著效果会随着次数增加,逐渐递减有系统的调整比发现一个参数可以改动就试一试

2021-01-27 11:19:02 56

原创 6.orm方式+sqlalchemy+线程池

# ORM方式连接 MySQL 数据库from sqlalchemy.orm import sessionmakerimport pymysqlfrom sqlalchemy import create_engine, Table, Float, Column, Integer, String, MetaData, ForeignKeyfrom sqlalchemy.ext.declarative import declarative_basefrom datetime import dateti

2021-01-27 00:13:54 616

原创 5.SQL基础

DQL:Data Query Language 数据查询语言,开发工程师学习的重点DDL:Data Definition Language 数据定义语言,操作库和表结构DML:Data Mainipulation 数据操作语言,操作表中记录DCL:Data Control Language 数据控制语言,安全和访问权限控制首先判断表是否存在select… from… where… group by… having… order by… limit...

2021-01-27 00:06:36 65

原创 4.事务+利用pymysql更删改查+初始化

事务要么全执行 要么不执行事务的特性 — ACID原子性 Atomicity一致性 Consistency隔离性 Isolation 不相互影响持久性 Durability事物的隔离级别读未提交:允许读到未提交的数据读已提交:只能读到已经提交的内容可重复读(默认):同一事物在相同的查询条件下两次查询得到的数据结果一样可串行化:事务进行串行化,但是牺牲了并发性能mysql隐式提交set autocommit =0;//可以进行关闭进行提交BEGIN COMMIT回滚 ROLLBA

2021-01-26 20:01:11 146

原创 3.python连接MYSQL

其他语言:连接器、绑定、bindingpython语言:python Database API、DB-APImysqldb是python2的包python连接mysqlpython3的包叫mysqlclient,加载的仍然是mysqldbpip install mysqlclientimport MySQLdb其他DB-API:pip install pymysql #流行度最高pip install mysql-connector-python #mysql官方使用ORM对象关

2021-01-26 15:32:05 69

原创 2.数组、链表、跳表

Array数组Linked List链表跳表(skip list):对标的是平衡树(AVL Tree)和二分查找 redis 空间O(n)prepend n 1 1append 1 1 1lookup 1 n logninsert n 1 logndelete n

2021-01-25 11:15:27 58

原创 1.开启

多遍重复记忆(脑图)+反复(五毒神掌)最佳方法:5分钟想不出来直接看题解或者高票代码,用五毒神掌变成自己的东西。

2021-01-24 11:48:41 98

原创 2.mysql字符集设置

字符集查看字符集 sql里的utf8 (3字节) 不是 utf-8(4字节)查看校对规则(图上是已经修改过的)_ci(大小写不敏感) _cs(敏感)为了保持一致,需要修改配置文件vim /etc/my.cnfutf-8在sql里是utf8mb4【mysqld】服务器端重启systemctl restart mysqld完成...

2021-01-21 00:12:04 65

原创 1.mysql安装

环境CentOSmysql版本:企业、社区(使用)、MariaDB安装后避免yum自动更新注意数据库的安全性官网安装版本5.7.32 方式Red Hat Enterprise Linux/Oracle Linuxyum install …rpmyum install mysql-community-serveryum remove mysql57-c…noarch#取消自动更新索引,可能会有bug 生产环境和开发环境应该一样systemctl start mysqld.service

2021-01-20 23:33:08 69

原创 5.web开发基础

网页组成三部分:结构+表现+行为html:结构css:将结构和表现进行分离js:网页的行为1** 信息相应2** 成功定位3** 重定向4** 客户端响应5** 服务端响应重要内容:User-Agentcookie标准库:urllib 麻烦第三方库:request...

2021-01-20 19:26:06 83

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除