fenglei0415的博客

only create,you can know

细聊模式匹配算法

在经典模式匹配问题中,我们经常给出了长度为n的文本字符串T和长度为m的模式字符串P,并希望明确是否P是T的一个子串。如果是,则希望找到P在T中开始位置的最低索引 j,比如 T[ j: j+m] 和P匹配,或者从T中找到所有P的开始位置索引。 模式匹配问题在Python的str类中有许多内在的行为...

2018-12-02 13:59:57

阅读数 318

评论数 0

通过动态获取cookie爬取国家企业信用信息公司系统

更多总结查看Github 1.首先分析,通过设置heads头,requests包来爬取网页总返回521,其实就应该明白做了简单的反爬。我们要动态获取cookie,然后通过每次返回的cookie去获取数据。百度也查到很多解析前端js代码来获取cookie的,感觉太麻烦了。我这里使用的webdriv...

2018-08-20 09:11:18

阅读数 5437

评论数 6

flask+jieba+redis实现全文检索API

首先业务需求是mysql数据要提取到redis,同时在redis建立索引做分词(别问我为什么这么做,要求就这样),使用flask框架一共四个py文件# __init__.py import pymysql # 与mysql交互 pymysql.install_as_MySQLdb()接下来是配置...

2018-07-02 11:15:34

阅读数 929

评论数 0

实战中使用 Redis 统计在线用户人数

在构建应用的时候, 我们经常需要对用户的一举一动进行记录, 而其中一个比较重要的操作, 就是对在线的用户进行记录。 本文将介绍四种使用 Redis 对在线用户进行记录的方案, 这些方案虽然都可以对在线用户的数量进行统计, 但每个方案都有一些自己特有的操作, 并且各个方案的性能特征以及资源消耗也各...

2018-06-07 12:03:34

阅读数 2009

评论数 0

爬虫之 ---- 无界面浏览器

一 . 大招从基础开始    1.  PhantomJS:无界面的浏览器      Selenium: 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才...

2018-05-14 23:32:13

阅读数 3213

评论数 0

九型人格

九型人格 概念 人格被分为九型,你必然属于其中一型。而这个型就是你的基本人格形态。一个人的基本人格类型不会发生改变,即使在生活中,受环境因素影响发生种种变故,但即使你的基本人格型态是伴随终身的。 随着年龄增加,环境变化,价值观、世界观的完善,人们为了顺应成长,社会文化,最终会形成一种性...

2019-04-14 23:22:47

阅读数 38

评论数 0

对于spark,你需要知道的核心概念

最近总结一波面试问题(包括python,MySQL,数据科学,机器学习,大数据等,一个人力量有限),有兴趣查看github 1.hadoop 和 spark 使用场景? Hadoop/MapReduce 和 Spark 最适合的都是做离线型的数据分析,但 Hadoop 特别适合是单次分析的数据...

2019-04-14 21:12:48

阅读数 66

评论数 0

实战中spark遇到的问题

最近总结一波面试问题(包括python,MySQL,大数据等,一个人力量有限),有兴趣查看github 1.数据倾斜的产生和解决办法? 数据倾斜以为着某一个或者某几个 partition 的数据特别大,导致这几个 partition 上的计算需要耗费相当长的时间。 在 spark 中同一个应...

2019-04-14 21:12:29

阅读数 45

评论数 0

MySQL 查询速度慢与性能差问题

一、什么影响了数据库查询速度 1.1 影响数据库查询速度的四个因素 1.2 风险分析 QPS:Queries Per Second意思是“每秒查询率”,是一台服务器每秒能够相应的查询次数,是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。 TPS:是Transaction...

2019-02-09 18:32:06

阅读数 266

评论数 0

线程的同步和进程的通讯

线程同步机制: 各个线程可以访问进程中的公共变量,资源,所以使用多线程的过程中需要注意的问题是如何防止两个或两个以上的线程同时访问同一个数据,以免破坏数据的完整性。数据之间的相互制约包括 1、直接制约关系,即一个线程的处理结果,为另一个线程的输入,因此线程之间直接制约着,这种关系可以称之为同步关...

2019-01-31 19:47:58

阅读数 36

评论数 0

SQL 优化经验总结

总结一波面试问题(包括python,MySQL,数据科学,机器学习,大数据,一个人力量有限),查看 github SQL 优化经验总结 我们要做到不但会写SQL,还要做到写出性能优良的SQL,以下为笔者学习、摘录、并汇总部分资料与大家分享! 1. WHERE子句中的连接顺序 MySQL采用...

2019-01-15 19:13:21

阅读数 200

评论数 0

数据特征工程

更多总结查看Github 只要数据好,模型随便搞。所以说来相对于机器学习和建模,准备好数据是极其重要的。那如何准备数据呢,讨论一下。 对于数据特征工程,可以这样划分: 1. 特征使用 <数据选择,可用性> 2. 特征获取 &lt...

2019-01-05 11:43:17

阅读数 52

评论数 0

自定义MapReduce

1. 在python程序中,每个类只能有一个构造器,就是__init__方法。 2. 通过@classmethod机制,可以用一种与构造器相仿的方式来构造类的对象。 3. 通过类方法多态机制,可以更通用的方式构建子类 以上为核心构造一个MapReduce ,首先定义一个类读取数据: ...

2018-12-25 19:37:55

阅读数 38

评论数 0

字典有序

collections中封装了OrderedDict方法,目的是给dict 增加有序功能。但是从python3.6 开始,dict默认就有序了。来测试下 from collections import OrderedDict od = OrderedDict() od['a'] = 1 od...

2018-12-20 20:50:01

阅读数 87

评论数 0

有关词频统计

统计一个数组或者一个文档中出现频率最高的词,或者对元素排序是数据统计中经常用到的。 先说下最常用到的方法: from random import randint data = [randint(100, 110) for _ in range(30)] # 初始化一个长度为30的随机列表...

2018-12-19 22:19:24

阅读数 20

评论数 0

给元祖命名

开发中经常遇到 mysql.conn.fetchall() 返回一个元祖,如何快速给元祖中每个字段命名并且可读性高呢? 第一种自定义枚举类 from enum import IntEnum # 内置枚举类 res = ("Bob", 22, &...

2018-12-19 19:31:19

阅读数 32

评论数 3

如何在csdn关掉百度广告

    顺便宣传下个人公众号。 每次看博客,有百度的广告就很不舒服,索性屏蔽掉。 浏览器输入链接:https://chrome.google.com/webstore/search/Adblock%20Plus,添加第一个就好。 提示安装成功! 接下来在高级菜单里点击添加我的过滤...

2018-12-10 20:06:40

阅读数 240

评论数 0

AVL树和伸展树

在树的结构中,一个最重要的用途是用作二叉搜索树。接下来使用搜索树结构有效的实现有序映射。 二叉搜索树的结构特性产生的最重要的结果是搜索算法。在search中,搜索一次下降一层,树高为h,每一个节点的搜索时间为O(1)(至于为什么是O(1),则涉及到哈希表的设计),则最坏情况下总的搜索时间为O(h...

2018-12-08 16:30:08

阅读数 66

评论数 0

LeeCode 104and110 python

104.  给定一个二叉树,找出其最大深度。 二叉树的深度为根节点到最远叶子节点的最长路径上的节点数。 说明: 叶子节点是指没有子节点的节点。 示例: 给定二叉树 [3,9,20,null,null,15,7], 3 / \ 9 20 / \ 15 ...

2018-12-06 21:58:00

阅读数 36

评论数 0

LeetCode 二叉树的高度和深度问题

二叉树的最大深度 对于深度和高度问题,总结一下。首先定义一颗二叉树,初始化一些方法 # Definition for a binary tree node. class TreeNode: def __init__(self, x): self.val = x ...

2018-12-05 22:24:55

阅读数 32

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭