Python网络爬虫(3)——以爬虫的角度看待网络内容

最新推荐文章于 2023-03-28 08:00:00 发布

BlvinDon

最新推荐文章于 2023-03-28 08:00:00 发布

阅读量308

点赞数

分类专栏： Python 文章标签： Python网络爬虫

本文链接：https://blog.csdn.net/FLORIDA_tang/article/details/80320443

版权

Python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

修改User-Agent字段
其实这是一种模拟浏览器的方法

        kv = {'user-agent':'Mozilla/5.0'}
        r = requests.get(url,headers=kv)

根据关键词查询

import requests
def GetKwyword(keyword):
    try:
        kv = {'kw':keyword}
        r = requests.get("http://www.baidu.com/s",params=kv)
        r.raise_for_status()
        return r
    except:
        return "Error!"
if __name__ == '__main__':
    keyword = "NJUPT"
    print(len(GetKwyword(keyword).text))

IP地址查询示例

import requests
url = "http://www.ip138.com/ips138.asp?ip="
r = requests.get(url+'120.199.34.101')
r.encoding = r.apparent_encoding
print(r.text)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

BlvinDon

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

两万字博文教你python爬虫requests库【详解篇】

孤寒者的博客

07-12

58万+

????上一篇博文一篇万字博文带你入坑爬虫这条不归路（你还在犹豫什么&抓紧上车）【❤️熬夜整理&建议收藏❤️】被众多爬虫爱好者/想要学习爬虫的小伙伴们阅读之后，很多小伙伴私信我说——大佬搞爬虫都是用的socket套接字嘛？???? ????（苦笑）“那肯定不是啊！python为我们封装了那么多伟大而又简单实用的爬虫库，”不过我想说的是，“ 学啥技术都是从底层抓起，万丈高楼平地起，它也是基于地基稳！所以在入坑文中简单地介绍使用了下底层爬虫库——socket！”???? ????而本文

目录导航《100天精通Python丨快速入门到黑科技》

最新发布

独木不成林，单弦不成音。

04-16

31万+

基础知识篇以理论知识为主，旨在帮助没有语言基础的小伙伴，学习我整理成体系的精华知识，快速入门构建起知识框架；黑科技应用篇以实战为主，包括办公效率小工具、爬虫、数据分析、机器学习、计算机视觉、自然语言处理、数据可视化等等，让你会用一段简单的 Python 程序，自动化解决工作和生活中的问题，甚至成为红客。

参与评论您还未登录，请先登录后发表或查看评论

对于爬虫的简单认知

joe_niu的博客

10-16

1772

简单来说互联网是由一个个站点和网络设备组成的大网，我们通过浏览器访问站点，站点把HTML、JS、CSS代码返回给浏览器，这些代码经过浏览器解析、渲染，将丰富多彩的网页呈现我们眼前；爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序；从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的...

个人对爬虫的一些看法

True Truth

08-20

1540

自从网络时代兴起，数据交互便打破了距离的限制，向地球村更进一步。随着数据的膨胀和机器学习的兴起，数据的附加值也慢慢展现出来。个别的灰色企业获取数据的手段暴力血腥超出了我个人对网络的理解，我们应该正视技术。技术虽无界，但人却分好坏。我个人认为，爬虫可以提高我们的浏览效率，提高数据的个性化设计。比方说有的小伙伴买东西，要逐个对比，这个时候，可以用爬虫将数据获取下来，做表分析更加直观。浏览网站，提取需要的数据，将数据进行自定义分类，数据浏览更加直观，屏蔽无关的干扰。这都是局部数据进行分析，如果需要大

Python网络爬虫1

qq_42713936的博客

04-29

142

毕设秃头第一天

爬虫的基本原理(Python3)

Sweeneys的博客

06-03

616

一.获取网页获取网页就是获取网页的源代码。Python本身提供的库有：urllib, request等。示例：获取知识星球登录页 # -*- coding:utf-8 -*- """ 获取知识星球登录页 """ from urllib import request URL = 'https://wx.zsxq.com/dweb/#/login' res = request.ur...

Python3中urllib使用介绍

困而学之，学思并重

08-19

8万+

Py2.x： Urllib库 Urllin2库 Py3.x： Urllib库变化：在Pytho2.x中使用import urllib2——-对应的，在Python3.x中会使用import urllib.request，urllib.error。在Pytho2.x中使用import urllib——-对应的，在Python3.x中会使用import urllib.request，urllib.

浅谈python【网络爬虫】

洪博hopes的博客

05-27

556

【网络爬虫】如果python基础知识学的差不多了，那么用【爬虫】来练手是一个即简单又富有成就感的方式了；那么我们先简单聊聊【网络爬虫】是一个什么东西？ 1.什么是【网络爬虫】？ MBA智库百科写道：“网络爬虫又名‘网络蜘蛛’，是通过网页的链接地址来寻找网页，从网站某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到按照某种策略把互联网上所有的网页都抓取完为止的技术。” 看完可能还是不太懂对吧？那我们做一个比喻：我们知道互联网或者说因特网是可

浅谈Python网络爬虫

01-20

326

100天精通Python丨基础知识篇 —— 05、7大基础数据类型详解（变量、列表、集合、字典、元组）

独木不成林，单弦不成音。

03-28

3万+

数据类型解决了"存"的问题：它决定了使用这个类型需要开辟空间的大小，**用什么样的体位优雅的在内存中进行存储**；数据类型解决了"取"的问题：它改变了看待内存空间的视角，以及在**不同的代码程序中选择合适的数据类型，不仅程序效率高，开发过程也会事半功倍**。

Python爬虫初步

BingLau的博客

02-24

1444

手写爬虫经历(豆瓣读书爬虫)这里要介绍一下urllib2这个模块作用：主要是用于打开url。核心方法： - urlopen(url[, data][, timeout]) - 打开一个url，该url参数可以是一个string也可以是一个 Request 对象（后有介绍）。 - data参数可以是一个指定的字符串，该字符串将会送往服务器。（date应该是在标准applica

金融学Python&爬虫（一）：为什么我要学Python

weixin_45722061的博客

10-08

2277

什么是 Python？ Python 是一门优雅、明确、简单的编程语言，拥有丰富和强大的库，适合编写脚本与进行数据分析为什么我要学 Python？我现在以及未来要做的都是产品，不是程序员，那么，为什么我要学 Python 呢？一、提升工作效率在这个时代，作为一个互联网人，几乎时刻都离不开计算机（包括移动设备）。我们会通过计算机处理很多数据和文件，当数据和文件量大到一定程度，或者重...

北理工嵩天Python网络爬虫与信息提取MOOC 测验3: Python网络爬虫之实战 (第3周)

Teaphon

11-14

2859

Python网络爬虫与信息提取MOOC 测验3: Python网络爬虫之实战 (第3周) 1、以下不是正则表达式优势的选项是：‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬ A、一行胜千言 B、实现自动化脚本 C、特征表达 D、简洁正确答案...

python2.X和python3.X中的urllib、urllib2，以及Request

weixin_42269099的博客

12-27

315

1、urllib和urllib2库在python2中的使用 Urllib和Urllib2是python2中提供的一个用于操作url的模块，但是提供了不同的功能。在python2中，有urllib库和urllib2库。在python3中，urllib2被合并到urllib库中，在我们爬取网页的时候，经常用到这个库。 1.1 urllib2可以接受一个Request类的实例来设置URL请求的head...

urllib

Kaiyin

08-20

525

urillb 崔老师爬虫课程听课笔记。

Python网络爬虫与信息提取第三周测验答案

Divine0的博客

04-10

4541

测验3: Python网络爬虫之实战 (第3周) 1. 以下不是正则表达式优势的选项是：‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬ A 一行胜千言 B 特征表达 C 实现自动化脚本 D 简洁正确答案 C 尽管正则表达式可用于自动化脚本，但不直...

爬虫到底违法吗？这位爬虫工程师给出了答案

Python大本营的博客

07-03

1万+

作者 | 猪哥来源 | 裸睡的猪（ID：IT--Pig）一、自述1.关于大学我读的大学是个野鸡学校，虽说是一个计算机专业，但实际的课程内容很杂。CAD、3DMAX、Off...

Python网络爬虫与信息提取第〇周：网络爬虫之前奏

weixin_42603934的博客

03-27

272

交互式、文本式

PYTHON 爬虫简单的认识

deepexpert_gaohz的专栏

11-30

672

作为初学者，在理解python的网页抓取时，我使用的是urillb，这是python自带的一个标准库。首先我们在开始之前，需要知道网页的头部信息header：server，content—type，last—modified。在使用urillb的方法时，我用的是python内置的方法，也就是 import urllib ，

Python网络爬虫实战指南

"用Python写网络爬虫.pdf" 本书详细介绍了如何利用Python语言来编写网络爬虫程序，由澳大利亚的Richard Lawson撰写，中文译者为李斌，由人民邮电出版社出版。这本书面向已有一定Python编程基础并对其网络爬虫技术感...