记录学习python爬虫遇到的问题

最新推荐文章于 2023-03-14 20:39:11 发布

一枚程序渣

最新推荐文章于 2023-03-14 20:39:11 发布

阅读量698

点赞数 1

分类专栏：技术类

本文链接：https://blog.csdn.net/a13103861409/article/details/80266169

版权

技术类专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1，urllib

碰到的第一个问题就是python3不支持urllib.urlope()方法，解决方法是引用urillib.request.urlopen();

2，爬取的网页中文显示x89/x86/x45

python3输出位串，而不是可读的字符串，需要转化，使用str（string,'ecoding'）进行转化就可一解决

3，对urllib中的data参数进行构造

需要引入urllib下的parse，同时需要记住提交类型不能是string，应该是byte类型。写法：parse.urlencode(data).encode('编码类型')

4，python 报错 typeError：an integer is required (got type dict)

原因：headers不能用urllib.request.urlopen()直接访问，需要先用urllib.request.Request()

5，threading.current_thread()详解

解答：返回当前的线程对象。链接：https://blog.csdn.net/shennongzhaizhu/article/details/51544151

6，多线程：threading.current_thread().name和.getName()有什么区别

解答：name 是当前线程的属性， getName 是当前线程的方法。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一枚程序渣

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python爬虫遇到的一些杂七杂八的问题

知易行难的博客

12-12

2087

周末闲来无事，写了几个爬虫程序，主要是爬图片网站的图片，还有豆瓣top250的名字和评分具体的全部源码单独写一篇进行展示，这里只记录一下写爬虫期间遇到的一些杂七杂八的问题 1.HTTPError: Forbidden 这个主要就是爬豆瓣的时候，访问可能太频繁了，被认出来是爬虫，就拒绝访问了解决方法主要就是： ①换个ip，不过我是手机热点，重连了依然如此，更换代理ip也是如此，可能是我代码的问题 ②把代码里面agent的部分换一下，比如我的之前是： opener.addheaders=[('

python爬虫遇到的问题

SS的博客

03-05

483

最重要的是错误查看查看端口状态命令：netstat -apn 用于查看mysql的端口是否开启的是3306 发现mysql的连接状态如图可以看到本地端口是127.0.0.1：3306 需要修改mysql的bind-address：找到/etc/mysql/mysql.conf.d/mysqld.cnf这个文件中，有一行是需要改为0.0.0.0 即接收任何ip的连接并且...

参与评论您还未登录，请先登录后发表或查看评论

Python学习过程中的问题

重邮小菜鸟的博客

05-28

352

*args 和**kwargs *args代表位置参数，它会接收任意多个参数并把这些参数作为元组传递给函数。 **kwargs代表的关键字参数，允许你使用没有事先定义的参数名，另外，位置参数一定要放在关键字参数的前面。 __new__和__init__的区别创建一个新实例时调用__new__,初始化一个实例时用__init__,这是它们最本质的区别。 new方法会返回所构造的对象，in...

Python写小爬虫时遇到的问题记录

kakulukia的专栏

10-23

385

很早就知道python了，但一直没拿来用，最近突然觉得需要爬一些小图片(=_=)了，就想到了python。python用起来确实方便快捷，很快就构建好了主要功能。模块分2部分，一个是爬图模块，另一个是登录模块。爬一般网站就直接调爬图模块，爬xxx网站(+_+)就执行登录模块（嵌入了爬图模块），爬不同的xxx网站需要构造不同的formdata。在陆续完善各种检测功能的时候遇到些问题，以下为问题记

python学习中遇到的问题

qinglu000的专栏

03-27

1289

1. num=raw_input("num=") for i in range(2,num+1): 报错：TypeError: cannot concatenate 'str' and 'int' objects 改正：num=int(raw_input("num="))

Python爬虫常见问题

dau65166的博客

08-09

444

第一个问题：JS加密如何突破 (1) 熟练掌握Chrome的开发者工具的各个功能，Elements， Network，Source (2) 认真观察，善于思考。Network查看加载流程，找可疑的xhr请求，设置xhr断点，通过Call Stack 回溯js执行过程，边回溯边查看上下文代码。能读懂js，知道js的相关知识，比如js里面的window变量。 (3) 以上是通过debu...

python爬虫从入门到精通记录爬虫学习

06-27

Python爬虫技术是数据获取和...总之，“python从入门到精通第二版pdf”这个资源将带领你逐步踏入Python爬虫的世界，通过学习和实践，你将能够编写出高效、稳定的爬虫程序，为数据分析和网络自动化提供强大的数据支持。

学习记录Python- 小练习，包含一个Python爬虫

最新发布

02-02

在本学习记录中，我们将深入探讨Python爬虫的相关知识，这是一个初学者到进阶者都能受益的领域。Python因其简洁的语法和丰富的第三方库，成为了爬虫开发的首选语言。让我们一起揭开Python爬虫的神秘面纱。首先，...

基于python爬虫对百度贴吧进行爬取的课程设计.zip

12-08

10. **异常处理与代码优化**：编写健壮的爬虫代码，包括错误捕获、重试机制、日志记录等，确保爬虫在遇到问题时能正常运行。 11. **多线程与异步**：当需要爬取大量页面时，可使用Python的多线程或多进程提高效率。...

初学python爬虫，记录一下学习过程，requests xpath os 提取图片并保存本地

12-22

在Python爬虫的学习过程中，经常会使用到requests、xpath和os这三个库。requests库用于发送HTTP请求，获取网页的HTML内容；xpath是一种在XML文档中查找信息的语言，它同样适用于HTML，用于解析和提取数据；os模块则...

python爬虫工作遇到的问题

weixin_42348058的博客

06-08

471

1，redis 的强制关闭导致磁盘不可写入，，flush

记录一次简单python爬虫遇到的问题

witchKoala的博客

10-28

604

1. python版本问题。当系统有多个python版本的时候，可以用anaconda来管理。如果是自己随便安装的，还要留意python的解释器用的是哪个版本，pip下载依赖是在哪个目录下，pip下载可以指定目录的。 2. 爬虫ip被封。这次我用了两种思路。一个是更换代理，就是指定header，使用fake_useragent包的UserAgent来随机使用header。...

Python爬虫总结——常见的报错、问题及解决方案

WoLykos

12-24

1万+

在爬虫开发时，我们时常会遇到各种BUG各种问题，下面是我初步汇总的一些报错和解决方案。在以后的学习中，如果遇到其他问题，我也会在这里进行更新。各位如有什么补充，欢迎评论区留言~~~ 问题： IP被封，或者因访问频率太高被拦截？？？解决方案之一：使用代理IP即可。问题：正确使用XPath之后并没有输出？？？解决方案之一： XPath只能提取未注释的代码，改用正则表达式即可。 ...

关于初学python爬虫的一点问题总结（三）

一点人生的经验

03-19

544

关于初学python的一点问题总结（三）目录关于初学python的一点问题总结三目录首先说的今天的干货首先说的才发现一个问题，这几天的博客名称说的全是初学python，其实说来应该是爬虫才对。关于这个内容，其实《python网络数据采集》真是一本好书，在学习爬虫的过程中，这本书几乎有所有相关的内容。今天的干货接着上一次的内容，抓取漫画。上次抓取只是针对某一话进行抓取，这次的抓取，开始对整部漫画

python爬虫过程中出现的问题汇总

MonsterZw的博客

09-17

5304

1.出现 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 7: ordinal not in range(128) 原因：混淆了 python2 里边的 str 和 unicode 数据类型解决办法：在出错的脚本前加上以下代码： import sys reload(sys) ...

python爬虫常见问题（一）

Slow-slicing的博客

05-13

3555

Python爬虫所见问题集合：1. NotImplementedError: Only the following pseudo-classes are implemented: nth-of-typeAnswer:nth-child 改为 nth-of-type3.expected string or bytes-like object:Answer:进行编码转换。eg:re.findall(r...

关于初学python爬虫的一点问题总结（一）

一点人生的经验

03-15

616

关于初学python的一点问题总结（一）目录关于初学python的一点问题总结（一）目录总结页面抓取开始使用BeautifulSoup 根据标签属性抽取数据正则表达式开始过滤单个页面获取信息开始抓取内部链接数据最后说点总结这几天看了一下《python网络数据采集》，跟着书上差不多看了前面三章然后完成了一点书上的代码，这本书都是基于3.0...

Python爬虫编程常见问题解决方法

m0_59485658的博客

03-14

1544

百度搜索，我们输入搜索内容，返回的是一个包括原地址链接的html，而不是访问该链接的html，且返回的html中：location.replace(location.href.replace("https://","http://"));1.可以通过json_data['data']，只输出json数据json_data中‘data’对应的值，也就是。通过print(type(html))查看html的类型, 可以查出是bytes类型，就需要解码。只想要输出good: adj. 好的，而不要其他的格式。

Python爬虫基础：使用 Python 爬虫时经常遇到的问题合集