python爬虫
elsa^-^yxy
这个作者很懒,什么都没留下…
展开
-
python版--百度人工智能接口(AIP)的调用方法
百度人工智能接口(AIP)的调用方法学了一段时间的爬虫,老师终于讲到怎么调用人工智能接口,实际实施了一下,很顺利的就成功了。将这一过程记录下来,方便后期的复习。一、人工智能接口申请1、打开浏览器,搜索【百度AI】,进入百度AI开放平台2、查看开放能力--->文字识别--->通用文字识别,并点击3、进入通用文字识别页面,点击【立即使用】4、弹出登录百度账号页面,输入账号密码登录。进入文字识别--概览页面,点击【创建应用】5、创建新应用页面,填写合适信息.原创 2020-07-14 16:38:29 · 5568 阅读 · 2 评论 -
写入到本地时,提示错误gbk codec cant encode character解决方法(转载)
使用Python写文件的时候,或者将网络数据流写入到本地文件的时候,大部分情况下会遇到:UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position ... 这个问题。 网络上有很多类似的文件讲述如何解决这个问题,但是无非就是encode,decode相关的,这是导致该问题出现的真正原因吗?不是的。 很多时候,我们使用了decode和encode,试遍了各种编码,utf8,utf-8,gbk,gb2312等等,该有的编码都转载 2020-06-30 18:21:45 · 2071 阅读 · 0 评论 -
python爬虫实例--tencent网站招聘信息
学习python爬虫一段时间了,想做个实例巩固一下所学的知识。爬取对象:腾讯招聘网站不知道是不是被爬的多了,这个网页变动挺大的。(网上搜到的那些爬虫代码已经不好使了,๑乛◡乛๑)代码如下:import urllibfrom urllib import requestimport reimport json# 构造请求头信息header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; '原创 2020-06-30 14:31:54 · 613 阅读 · 0 评论 -
python爬虫--xpath方式清洗数据,class内容中有空格,清洗失败怎么办?
python爬虫--xpath方式清洗数据,清洗失败?(class内容中有空格)目标:爬取类似下图中帖子的图片步骤一、找到该帖子的源代码<div class="threadlist_lz clearfix"> <div class="threadlist_title pull_left j_th_tit member_thread_title_frs "> <a rel="noreferrer" href="/.原创 2020-06-22 17:12:15 · 3121 阅读 · 0 评论 -
python中使用lxml的parse方法解析html文件报错Opening and ending tag mismatch
使用lxml的parse方法解析本地html时,提示如下错误:查了一下,应该是本地的html文件有错误,标签不匹配本地html文件,内容见下图<!DOCTYPE html><html><head><meta charset="UTF-8"><title>Insert title here</title></head><body>hello,中国</body>&.原创 2020-06-17 17:09:33 · 3788 阅读 · 0 评论 -
python读取txt文件时,报错【utf-8 codec cant decode byte 0xcc】的解决办法
最近在学习正则表达式,想要统计【天龙八部】中各个主角出现的次数。在读取文件的时候,提示下面错误:原来下载的天龙八部txt文件的编码格式是【ANSI】,所以读取报错了。解决办法很简单,将文件的编码方式修改为【UTF-8】。记事本打开文件,选择另存为,修改编码格式。就像下面这样下面附上代码以及代码运行结果:import rewith open('tlbb1.txt', 'rb') as f: data = f.read().decode()pat = .原创 2020-06-12 10:25:22 · 4109 阅读 · 0 评论 -
爬虫出现AttributeError str object has no attribute items 转载
问题其实很简单,意思是说str类型没有items属性,items属性是字典的属性。此处是因为headers本应为dict,实际传入了str。做如下修改:原文链接:https://blog.csdn.net/The_Time_Runner/article/details/101775086...转载 2020-06-11 10:24:27 · 1790 阅读 · 0 评论