爬虫
要争就争第一
热爱计算机
展开
-
python爬虫工程师--手把手教会你--10urllib的底层实现原理.py
在前面,我们都是使用的默认的opener,也就是urlopen。它是一个特殊的opener,可以理解成opener的一个特殊实例,传入的参数仅仅是url,data,timeout。前面我们也说到为什么要使用build_opener,因为urllib的功能单一,如果我们想要实现其他功能,此时就需要使用Handler。上面是简单的urllib的实现原理,大家可以直接店看看(右键+Ctrl)我用的VScode!如果我们需要用到Cookie,只用这个opener是不能达到目的的,所以我们需要。原创 2024-04-27 23:19:32 · 300 阅读 · 0 评论 -
python爬虫工程师--手把手教会你--09随机生成User-Agent.py
多次用同一个User-Agent访问,对方后台可能会监控!有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作。因为咱们每次手动去自己的浏览器获取user-agent,咱们看看可不可以随机生成一个。拷贝fake-useragent_version.json 的配置文件到用户目录。在创建对象时,可能创建不了,多部分原因为服务器访问不到的原因。原创 2024-04-26 12:07:45 · 645 阅读 · 1 评论 -
python爬虫工程师--手把手教会你--07获取动态页面.py
有些网页内容使用AJAX加载,而AJAX一般返回的是JSON,直接对AJAX地址进行post或get,就返回JSON数据了。有时在访问了请求后,并不能获取想要的数据。很大的原因之一就是,当前的页面是动态的。直接用最下面的url访问咱们需要的数据即可。最粗暴的方法就是无限加载页面。同一个页面有两个url;动态页面(AJAX)原创 2024-04-23 10:30:37 · 131 阅读 · 0 评论 -
python爬虫工程师--手把手教会你--06发送post请求.py
POST请求的参数需要放到Request请求对象中,data是一个字典,里面要匹配键值对,并且在data=data里面,得是byte类型,就是把字典转码。在目前网络获取数据的方式有多种方式:POST。浏览器里面获取数据的方式是get请求。原创 2024-04-23 09:46:49 · 163 阅读 · 0 评论 -
python爬虫工程师--手把手教会你--05简单抓取页面哔哩哔哩实例.py
time.sleep --------我认为是最简单的反爬手段。使用别的网站也可以写函数测试,因为网站随时有可能会变。如何分析URL地址与构造URL参数的思路。原创 2024-04-21 23:09:05 · 231 阅读 · 1 评论 -
python爬虫工程师--手把手教会你--04发送get请求.py
大部分被传输到浏览器的html,images,js,css, …都是通过GET方法发出请求的。它是获取数据的主要方法。Get请求的参数都是在Url中体现的,如果有中文,需要转码,这时我们可使用。方法三:urllib.parse.urlencode() 转换键值对。方法二:urllib.parse. quote() 转换一个值。方法一:直接去浏览器里面复制,粘贴过来的汉字内容自动会转码。在目前网络获取数据的方式有多种方式:GET方式。原创 2024-04-21 22:04:48 · 170 阅读 · 1 评论 -
python爬虫工程师--手把手教会你--02简单参数的认识.py
【代码】python爬虫工程师--手把手教会你--02简单参数的认识.py。原创 2024-04-04 18:35:01 · 744 阅读 · 1 评论 -
python爬虫工程师--手把手教会你--01学会发送请求.py
python 爬虫官网学习。原创 2024-04-04 17:26:49 · 131 阅读 · 1 评论