2021年07月_二哥不像程序员

12月 09月 08月 07月 06月 05月 03月 02月 01月

原创 Python连接Hive数据库

import pyhivefrom pyhive import hiveimport pandas as pdimport key_oneclass LinkHive(object): def __init__(self,host,port,username,password,database): self.host = host self.port = port self.username = username self.p

2021-07-31 23:09:09 5817 4

原创给我爬！三天掌握Scrapy（二）

在三天掌握Scrapy（一）中我们简单的介绍了Scrapy的实现原理，并且搭建了一个使用Scrapy的小小爬虫，本文让我们来深入了解一下Scrapy。一、翻页实现很多时候我们在网页中爬取的内容都需要进行翻页的操作，下面我们来了解一下如何用Scrapy来实现翻页操作。想要实现翻页操作，我们就要找到下一页对应的url地址，找到了地址之后构造出url对应的请求对象，然后传递给引擎就可以了。找到页码的url构造url对应的请求对象scrapy.Request(url,callback)call.

2021-07-31 18:45:55 997 15

原创给我爬！3天掌握Scrapy（一）

大家好，欢迎来到二哥的爬虫频道，本次二哥准备放弃周末爆更三天给大家带来Scrapy教程，记得三连呦～一、认识Scrapy

2021-07-25 15:38:42 3362 33

原创 Python爬虫｜反爬初体验

前言：使用Python爬虫是当下最火的一种获取数据的方式，当我们对一些小型网站进行爬取的时候往往没什么阻碍，而当我们爬取大型网站的时候经常会遇到禁止访问、封禁IP的情况，这也是我们触发反爬机制的体现，本文二哥来带领大家了解几种简单高效的反爬对策。目录一、浏览器模拟（Headers）二、IP代理三、Cookies模拟一、浏览器模拟（Headers）浏览器模拟是最常用的一种反爬方式。设想一下：一个网站不停的被同一个版本的浏览器频率的访问，那大概了就要被认为是机器人了。所以上有政策.

2021-07-10 15:52:16 2146 13

COV-19.xlsx

通过问卷调查得到的疫情期间的不同人群的活动数据，数据条数240+，包括工作城市、居住地、消费增长侧重情况等信息，可以用于简单的分析、挖掘。

2020-04-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人