- 博客(9)
- 资源 (9)
- 收藏
- 关注
原创 Python进阶之爬虫url去重(可用于文件去重)
主要介绍几个常用和目前了解的,当然还有其他方法,这里只说目前本人自己能实现的几种方法的基本思想:基于Hash算法的存储。对每一个给定的URL,都是用一个已经建立好的Hash函数,映射到某个物理地址上。当需要进行检测URL是否重复的时候,只需要将这个URL进行Hash映射,如果得到的地址已经存在,说明已经被下载过,放弃下载,否则,将该URL及其Hash地址作为键值对存放到Hash表中。这样,URL去...
2018-05-14 20:39:21 3605
原创 Python进阶之爬虫进阶selenium的使用
不在以文字赘述了,直接上代码,代码中都已经做了注解。。。其余内容稍后更新# encoding=utf-8 __author__ = 'Jonny' __location__ = '西安' __date__ = '2018-05-14' from selenium import webdriver from selenium.webdriver.common.by import By from ...
2018-05-14 19:17:10 324
原创 Python面试之沪江网“数据爬虫算法实习”
这篇博客是后来补的,面试是在今天上午,现在又经历了一场面试,感觉从头凉到脚,。。。。。总体来说,上午的面试比下午的刚进行完的这场面试要好得多,至少我知道的都已经表达清楚了。上午的面试进行了大约30分钟,是沪江网的部门CTO 进行的面试,上午的这场面试并没下午的面试这么刁难,只是问的都是关于项目的东西,开发过程,开发中遇到的问题,以及其他的方面的交流。 1、你为什么选择这岗...
2018-05-09 16:58:52 515
原创 Python面试之麦穗人工智能“爬虫工程师实习生”
相对今上午的面试,本次面试一上来就是一波三折,各种视频电话各种无法接通,后来终于接通了,感觉面试官的语气就很不耐烦,反正感觉心情很糟糕,一种爱面不面的口气。。。。。。整个面试过程持续了15分钟,整个面试过程感觉相当被动,让我有种有劲发不出来的感觉,算了,不说了,还是说说面试题吧。1、你都遇到过哪些反爬虫措施?2、你在做12306过程中都用到了那些库?用什么库进行的网页解析。。。3、你在做“TB数据...
2018-05-09 16:44:04 1933
转载 Python数据分析师求职之阿里数据分析师模拟笔试题(数据库的随机抽取若干的数据信息进行访问)
今晚做了一份阿里巴巴公司的模拟笔试题,总体的感觉乱七八糟。。。。。具体就不说了,我们来说说其中一个题吧。“一个学校有7个年级,每个年级10个班,每班20名学生,如何用SQL随机抽取10%的学生参加讲座?”下面是转载的内容:(转载地址:https://blog.csdn.net/zxl315/article/details/2435368)在mysql中查询5条不重复的数据,使用以下:<?xm...
2018-05-07 19:34:49 644
原创 Python项目开发之hash算法深究
一.概念哈希表就是一种以 键-值(key-indexed) 存储数据的结构,我们只要输入待查找的值即key,即可查找到其对应的值。哈希的思路很简单,如果所有的键都是整数,那么就可以使用一个简单的无序数组来实现:将键作为索引,值即为其对应的值,这样就可以快速访问任意键的值。这是对于简单的键的情况,我们将其扩展到可以处理更加复杂的类型的键。使用哈希查找有两个步骤: 1. 使用哈希函数将被查找的键转...
2018-05-04 21:30:02 1844
原创 Python实习面试之网易数据分析师笔试
可能是我之前复习的有点偏,网易数据分析实习生的笔试题目做起来有些吃力,一共是20个选择题和3个简答题,选择题主要是考察数值分析、概率论、数据结构。其他的内容几乎没有涉及。印象比较深的是几个题是关于均值问题、找零钱问题、还有个铺地板问题。总体来看主要考察的是概率论。简答题主要是数据库,有两道。最后一道时间太仓促,没怎么答,内容是关于考拉海购的销售方面的问题。具体题目记不太清了,还像是要说销售对象的划...
2018-05-04 21:14:20 7645
chrome-linux.zip
2019-08-13
chrome-win.zip
2019-08-13
c++函数模板和类模板计实验报告
2017-04-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人