自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jonny

编程菜鸟的进阶之路

  • 博客(9)
  • 资源 (9)
  • 收藏
  • 关注

原创 Python进阶之爬虫url去重(可用于文件去重)

主要介绍几个常用和目前了解的,当然还有其他方法,这里只说目前本人自己能实现的几种方法的基本思想:基于Hash算法的存储。对每一个给定的URL,都是用一个已经建立好的Hash函数,映射到某个物理地址上。当需要进行检测URL是否重复的时候,只需要将这个URL进行Hash映射,如果得到的地址已经存在,说明已经被下载过,放弃下载,否则,将该URL及其Hash地址作为键值对存放到Hash表中。这样,URL去...

2018-05-14 20:39:21 3605

原创 Python进阶之爬虫进阶selenium的使用

不在以文字赘述了,直接上代码,代码中都已经做了注解。。。其余内容稍后更新# encoding=utf-8__author__ = 'Jonny'__location__ = '西安'__date__ = '2018-05-14'from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom ...

2018-05-14 19:17:10 324

原创 Python进阶之借助selenium爬取淘宝商品信息

稍后更新

2018-05-14 19:16:13 492

原创 Python爬虫进阶之Chromedriver版本映射

暂时不做评述

2018-05-14 16:10:35 394

原创 Python面试之沪江网“数据爬虫算法实习”

       这篇博客是后来补的,面试是在今天上午,现在又经历了一场面试,感觉从头凉到脚,。。。。。总体来说,上午的面试比下午的刚进行完的这场面试要好得多,至少我知道的都已经表达清楚了。上午的面试进行了大约30分钟,是沪江网的部门CTO 进行的面试,上午的这场面试并没下午的面试这么刁难,只是问的都是关于项目的东西,开发过程,开发中遇到的问题,以及其他的方面的交流。       1、你为什么选择这岗...

2018-05-09 16:58:52 515

原创 Python面试之麦穗人工智能“爬虫工程师实习生”

相对今上午的面试,本次面试一上来就是一波三折,各种视频电话各种无法接通,后来终于接通了,感觉面试官的语气就很不耐烦,反正感觉心情很糟糕,一种爱面不面的口气。。。。。。整个面试过程持续了15分钟,整个面试过程感觉相当被动,让我有种有劲发不出来的感觉,算了,不说了,还是说说面试题吧。1、你都遇到过哪些反爬虫措施?2、你在做12306过程中都用到了那些库?用什么库进行的网页解析。。。3、你在做“TB数据...

2018-05-09 16:44:04 1933

转载 Python数据分析师求职之阿里数据分析师模拟笔试题(数据库的随机抽取若干的数据信息进行访问)

今晚做了一份阿里巴巴公司的模拟笔试题,总体的感觉乱七八糟。。。。。具体就不说了,我们来说说其中一个题吧。“一个学校有7个年级,每个年级10个班,每班20名学生,如何用SQL随机抽取10%的学生参加讲座?”下面是转载的内容:(转载地址:https://blog.csdn.net/zxl315/article/details/2435368)在mysql中查询5条不重复的数据,使用以下:<?xm...

2018-05-07 19:34:49 644

原创 Python项目开发之hash算法深究

一.概念哈希表就是一种以 键-值(key-indexed) 存储数据的结构,我们只要输入待查找的值即key,即可查找到其对应的值。哈希的思路很简单,如果所有的键都是整数,那么就可以使用一个简单的无序数组来实现:将键作为索引,值即为其对应的值,这样就可以快速访问任意键的值。这是对于简单的键的情况,我们将其扩展到可以处理更加复杂的类型的键。使用哈希查找有两个步骤:   1. 使用哈希函数将被查找的键转...

2018-05-04 21:30:02 1844

原创 Python实习面试之网易数据分析师笔试

可能是我之前复习的有点偏,网易数据分析实习生的笔试题目做起来有些吃力,一共是20个选择题和3个简答题,选择题主要是考察数值分析、概率论、数据结构。其他的内容几乎没有涉及。印象比较深的是几个题是关于均值问题、找零钱问题、还有个铺地板问题。总体来看主要考察的是概率论。简答题主要是数据库,有两道。最后一道时间太仓促,没怎么答,内容是关于考拉海购的销售方面的问题。具体题目记不太清了,还像是要说销售对象的划...

2018-05-04 21:14:20 7645

chrome-linux.zip

puppeteer是继phantomjs停止维护之后有一款自动化无头浏览器,无论是在爬虫还是自动化测试方面都表现出很好的性能,而且支持远程服务操作。

2019-08-13

chrome-win.zip

puppeteer是继phantomjs停止维护之后有一款自动化无头浏览器,无论是在爬虫还是自动化测试方面都表现出很好的性能,而且支持远程服务操作。

2019-08-13

数值分析答案

数值分析作业答案分析

2017-07-13

Android-21

Android,sdk,21

2017-06-27

c/cpp指针详解

通过不同的方面详细的讲解了指针的各种用法

2017-06-27

数值分析实验报告书

实验内容包括牛顿插值等试验

2017-06-27

数据图进阶与文件句柄实验报告

1. rand()函数的相关内容 2. 指定要求的伪随机数生成与呈现 3. 用文件句柄对生成的伪随机数矩阵进行保存

2017-06-07

Visio studio 2017

这是最新版的vs,vs2017改进2015版的不足,支持跨平台移动端的开发

2017-06-07

c++函数模板和类模板计实验报告

练习 C++中函数模板、类模板的创建和使用方法。 (1) 理解模板的作用。 (2) 学习函数模板及其声明方法,掌握模板函数及其生成方法。 (3) 学习函数模板的两种不同的实例化方法。 (4) 学习类模板的声明与使用方法。

2017-04-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除