自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jonny

编程菜鸟的进阶之路

原创 Python爬虫之利用爬虫利器puppeteer搭建远程服务

什么是puppeteer? Chrome59(linux、macos)、 Chrome60(windows)之后,Chrome自带headless(无界面)模式很方便做自动化测试或者爬虫。但是如何和headless模式的Chrome交互则是一个问题。通过启动Chrome时的命令行参数仅能实现简易...

2019-08-13 22:02:58 676 0

翻译 外文翻译:Study on Key Technology of Power Users Credit Rating Evaluation Ba(基于大数据的电力用户信用评级评估关键技术研究)

(博文并非完整版,图片并未能加载,完整版参见 外文翻译:基于大数据的电力用户信用评级评估关键技术研究) ABSTRACT Electricity power supply company has entered the era of market economy as the deepenin...

2019-06-06 11:05:03 161 0

原创 大数据起步之wormhole初识

第一个接触wormhole是公司的一个开发项目,由于之前供职于宜信,接触到这个开源项目,目前宜信已经推出Davinci、Moonbox、Wormhole、UAV.Monitor等10项领先开源技术,以将宜信的技术和方法开放共享,繁荣技术生态。 开源网址:https://github.com/ed...

2019-04-21 15:21:49 506 2

原创 大数据起步之centos7环境中安装kafka

本博文默认用户已经安装了jdk1.8 及以上 一、安装Zookeeper wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gz tar -zxvf zookeeper-3.4...

2019-04-19 09:25:00 114 0

原创 职场小记-实习归来,感慨万千

我胡汉三又回来!惊不惊喜,意不意外! 从去年6月份一个实习生的身份走出校园,放弃考研,依然走进职场,不知道对还是错,之前目前来看还算是正常的,辗转北京,最终选择目前的“归宿”——浙江核新同花顺网络信息技术有限公司,如今回头来看,自己还是满满的幸运,虽然不及年薪30w+的阿里头条等大厂,但是至少也...

2019-04-11 11:28:49 246 3

原创 Python基础之堆栈基础的二次代码封装

#!/usr/bin/env python3 # encoding : utf-8 # @author : 'Jonny' # @location: '北京' # @date : '2018/11/26 15:02' # @Em...

2018-11-26 15:09:45 483 1

原创 职场小记-宜信大数据团队

2018年11月26日,今天我离职了,离开了供职168天的致诚信用大数据团队,这是我的第一份工作,对于一个刚刚踏入社会 青涩小伙来说,这可能会让我终生难忘。选择离开,其实也是必然,必然的发展,我不知道这个决定是对是错,就像我当初选择加入宜信一样,只有经历了才能知道是对是错,回顾这168天的工作,感...

2018-11-26 13:50:03 1087 5

转载 大数据起步之Paxos算法

Paxos算法是莱斯利·兰伯特(英语:Leslie Lamport,LaTeX中的“La”)于1990年提出的一种基于消息传递且具有高度容错特性的一致性算法 问题和假设 分布式系统中的节点通信存在两种模型:共享内存(Shared memory)和消息传递(Messages pass...

2018-11-16 16:41:52 102 1

转载 #Wormhole# (开源)流式处理平台设计思想

导读:互联网的迅猛发展使得数据不再昂贵,而如何从数据中更快速获取价值变得日益重要,因此,数据实时化成为了一个大趋势。越来越多的业务场景需要实时分析,以极低的延迟来分析实时数据并给出分析结果,从而提高业务效率,带来更高价值。流式处理作为实时处理的一种重要手段,正在因数据实时化的发展而蓬勃发展。本文是...

2018-11-16 10:33:31 181 0

原创 Python常用操作之excle文件的基本操作(功能后续更新)

废话不多说,直接上代码: #!/usr/bin/env python3 # encoding : utf-8 # @author : 'Jonny' # @location: '北京' # @date : '2018/11/12 17:...

2018-11-14 11:20:54 192 0

原创 Python进阶之关于协程的那些事

  目录 什么是协程。 Python中对协程的实现 什么是协程。 协程:又称微线程,纤程。英文名Coroutine。首先我们得知道协程是啥?协程其实可以认为是比线程更小的执行单元。 为啥说他是一个执行单元,因为他自带CPU上下文。这样只要在合适的时机, 我们可以把一个协程 切换到另...

2018-11-09 15:40:07 360 0

原创 Python进阶之CPU计算密集型和IO密集型

在最近往服务器部署爬虫程序的时候,遇到了一个很奇怪的问题,就是部署上之后运行一段时间或者是直接不运行就进入休眠状态了,开始一直怀疑是由于服务器内存不足导致的程序休眠,后来废了好大的劲,最终找到了罪魁祸首,具体分析我通过这几篇连载的博客来分析一下,正好也对给自己充充电。 第一种任务的类型是计算密集...

2018-11-09 15:06:58 1965 0

原创 python进阶之进程、线程和协程在实际应用中的问题

多线程 vs多进程vs协程 Python中比较常见的并发方式主要有两种:多线程和多进程。当然还有协程。基础的程序开发这里就不说了,想要了解基本的协程开发的参见另一篇博客Python进阶之关于协程的那些事...

2018-11-08 18:26:08 503 0

原创 Python面试之同花顺Python开发工程师(二面)

        这次面试正好我在外地实习期间,面试地点在西安电子科技大学,我当时正好在北京实习,当时自己的多少也有些犹豫,到底是去还是不去,去可能被刷掉,不去便失去了这次机会,但最终还是选择做了13个小时的火车硬座,从北京赶回西安做了这次面试,但是幸运的是,面试结束之后马上就进行了HR面,三面结束...

2018-11-01 17:14:21 564 1

原创 服务器部署之nohup与程序的后台运行

# 1.后台启动程序 nohup Command [ Arg … ] [ & ] # nohup命令 参数可选但不是必须的,又需要看文档既可 # 举例 # 在后台运行 main.py的python脚本 nohup python main....

2018-10-24 12:07:46 608 0

转载 Linux vi/vim编辑器常用命令与用法总结

(一)vi/vim是什么? Linux世界几乎所有的配置文件都是以纯文本形式存在的,而在所有的Linux发行版系统上都有vi编辑器,因此利用简单的文字编辑软件就能够轻松地修改系统的各种配置了,非常方便。vi就是一种功能强大的文本编辑器,而vim则是高级版的vi,不但可以用不同颜色显示文字内容,还能...

2018-10-18 13:37:32 194 0

原创 Python面试之同花顺Python开发工程师(一面)

同花顺的一面相对简单,是通过电话面试的,对面的小哥哥感觉很不错,给我讲了很多的东西和以后需要提高的方面:下面做个见得总结:      面试面容主要两个方面:一个方面是python方面,另一个方面是数据库方面。      Python方面主要是和Python基础相关的东西,就不在赘述了,有兴趣和...

2018-10-12 10:54:42 911 2

原创 Python面试之睿智融科售前策略工程师(二面)

之前的一面就不在说了,水的很,具体来说说二面的问题: 1、介绍一下linux常用命令: 参看:Linux 命令大全 | 菜鸟教程 2、介绍一下vi常用操作键: 后续补充 3、为什么Python没有多线程: Python中的多线程没有真正实现多现程! 为什么这么说,我们了解一个概念,全局...

2018-10-12 10:19:27 247 0

原创 python面试之腾讯测试开发工程师

今天面试了腾讯的测试开发工程师岗位,总体感觉一般,问的问题都还是比较基础性的东西,当然也问了很多实习期间做的项目,各占一半吧。下面基础部分的东西总结一下: 1、假定我有100M的一个文本数据,但是我的电脑内存只有10M,我怎么在有限的资源条件的情况下,找出这个文本中出现次数最多的那一行字符串? ...

2018-09-26 14:32:01 2612 1

转载 大数据学习之Kafka原理总结

Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、stor...

2018-08-28 15:24:09 509 1

转载 hadoop探索之 浅析 Secondary NameNode(辅助namenode)

在初学Hadoop时,有个让人疑惑的概念:Secondary NameNode,也叫辅助namenode。从命名看,好像是第二个namenode,用于备份主namenode,在主namenode失败后启动。那么,Secondary NameNode的作用是什么?是如何工作的? 一,NameNod...

2018-08-09 19:07:18 169 0

转载 谷歌Chrome浏览器开发者工具教程—JS调试篇

上一篇我们学习了谷歌Chrome浏览器开发者工具的基础功能,下面介绍的是Chrome开发工具中最有用的面板Sources。 Sources面板几乎是最常用到的Chrome功能面板,也是解决一般问题的主要功能面板。通常只要是开发遇到了js报错或者其他代码问题,在审视一遍代码而一无所获之后打开Sour...

2018-08-07 13:24:14 170 0

转载 谷歌Chrome浏览器开发者工具教程—基础功能篇

Chrome(F12开发者工具)是非常实用的开发辅助工具,对于前端开发者简直就是神器,但苦于开发者工具是英文界面,且没有中文,这让很多朋友都不知道怎么用。下载吧小编为大家带来Chrome开发者工具基础功能和高级性能分析器(Timeline、Profiles)的图文详解教程,下面是基础功能篇。 提...

2018-08-07 13:22:40 584 0

原创 python爬虫进阶之scrapy的暂停与重启

scrapy的每一个爬虫,暂停时可以记录暂停状态以及爬取了哪些url,重启时可以从暂停状态开始爬取过的URL不在爬取 实现暂停与重启记录状态 方法一: 1、首先cd进入到scrapy项目里(当然你也可以通过编写脚本Python文件直接在pycharm中运行) 2、在scrapy项目里创建保...

2018-08-01 16:12:37 6626 2

转载 为何大量网站不能抓取?爬虫突破封禁的6种常见方法

为何大量网站不能抓取?爬虫突破封禁的6种常见方法  在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他...

2018-08-01 10:16:10 104 0

原创 Python爬虫实习之scrapy运行后未爬取直接结束

一开始看到这种情况也soil一连懵逼,什么鬼,难道是我的IP不行被网站看上了,想想不可能啊,毕竟是第一次爬取,于是开始了我一点一点的纠错过程,一开始以为是我的工程项目的文件设置路径错了,后来发现并不是,于是又想是不是程序的启动运行脚本程序错了,改了半天发现也不是,于是我无奈了。。。。可是,有时...

2018-07-20 17:44:22 1928 3

原创 GitHub代码上传及出错修正

第一步:创建Github新账户第二步:新建仓库第三部:填写名称,简介(可选),勾选Initialize this repository with a README选项,这是自动创建REAMDE.md文件,省的你再创建。第四步:安装Github shell程序,地址:http://windows.g...

2018-07-03 10:37:41 263 0

原创 Python爬虫之crawlspider源码解析

做了好久的爬虫,还没有真正的阅读过crawlspider的源码,下面是一些源码的解析:Spider基本上能做很多事情了,但是如果你想爬取全站的话,可能需要一个更强大的武器。CrawlSpider基于Spider,但是可以说是为全站爬取而生。CrawlSpiders是Spider的派生类,Spide...

2018-07-02 17:46:14 372 0

原创 Python爬虫之异常重试的解决方案详解

大家在做数据抓取的时候,经常遇到由于网络问题导致的程序保存,先前只是记录了错误内容,并对错误内容进行后期处理。原先的流程:def crawl_page(url): pass def log_error(url): pass url = "" try: crawl_...

2018-06-28 19:23:15 5256 0

转载 Python爬虫之数据的提取和清洗的正则应用规则

最近在做一个项目,爬虫获取的数据可谓一锅粥,果断选择了正则表达式,下面是常用的规则:表达式全集字符描述\将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,“n”匹配字符“n”。“\n”匹配一个换行符。串行“\\”匹配“\”而“\(”则匹配“(”。^匹配输入字...

2018-06-27 15:25:49 1657 0

原创 Python爬虫之selenium 父子、兄弟、相邻节点定位方式详解

selenium中根据父子、兄弟、相邻节点定位的方法,很多人在实际应用中会遇到想定位的节点无法直接定位,需要通过附近节点来相对定位的问题,但从父节点定位子节点容易,从子节点定位父节点、定位一个节点的哥哥节点就一筹莫展了,接下做出详尽的解析。1. 由父节点定位子节点最简单的肯定就是由父节点定位子节点...

2018-06-25 14:23:50 1618 0

原创 Python爬虫进阶之selenium定位不到元素的几种情况和解决方法

1>动态ID,每次调用页面出现的元素的ID会动态随机分配。解决方案:推荐使用xpath的相对路径方法查找到该元素。2>内嵌页面Iframe,导致无法定位到Iframe的页面元素。解决方案:driver.switchTo().frame(Id/name/element)来...

2018-06-20 17:40:48 3583 0

转载 Python爬虫之浏览器User-Agent大全

一、基础知识篇:Http Header之User-Agent    User Agent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通...

2018-06-14 11:10:32 9708 0

原创 Python爬虫进阶之“盗取”微信好友信息

刚起床,闲来无聊,找点事做,看了朋友圈一篇爬取微信好友信息的文章,突发奇想,偷偷看看女朋友微信有些啥。。。。于是就下手了。。。。[阴险]1、准备工作:运行平台:WindowsPython版本:Python3.6IDE:Sublime TextPython库:wxpy,2、开发流程:...

2018-06-04 17:26:06 5900 20

原创 Python常见错误之error: Microsoft Visual C++ 14.0 is required.

原因: 可能是直接使用 pip install 【第三方库名】 安装自己需要的第三方库。结果错误: Microsoft Visual C++ 14.0 is required解决办法: 一定要安装和自己windows版本和python版本对应的第三方库。推荐在:python库下载地址:http...

2018-06-03 08:44:16 1063 0

原创 Python进阶之爬虫url去重(可用于文件去重)

主要介绍几个常用和目前了解的,当然还有其他方法,这里只说目前本人自己能实现的几种方法的基本思想:基于Hash算法的存储。对每一个给定的URL,都是用一个已经建立好的Hash函数,映射到某个物理地址上。当需要进行检测URL是否重复的时候,只需要将这个URL进行Hash映射,如果得到的地址已经存在,说...

2018-05-14 20:39:21 2872 0

原创 Python进阶之爬虫进阶selenium的使用

不在以文字赘述了,直接上代码,代码中都已经做了注解。。。其余内容稍后更新# encoding=utf-8 __author__ = 'Jonny' __location__ = '西安' __date__ = '2018-05-14' ...

2018-05-14 19:17:10 143 0

原创 Python进阶之借助selenium爬取淘宝商品信息

稍后更新

2018-05-14 19:16:13 236 0

原创 Python爬虫进阶之Chromedriver版本映射

暂时不做评述

2018-05-14 16:10:35 153 0

原创 Python面试之沪江网“数据爬虫算法实习”

       这篇博客是后来补的,面试是在今天上午,现在又经历了一场面试,感觉从头凉到脚,。。。。。总体来说,上午的面试比下午的刚进行完的这场面试要好得多,至少我知道的都已经表达清楚了。上午的面试进行了大约30分钟,是沪江网的部门CTO 进行的面试,上午的这场面试并没下午的面试这么刁难,只是问的都...

2018-05-09 16:58:52 324 0

提示
确定要删除当前文章?
取消 删除