自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

好奇的博客

记录分享

还是记不住 CSDN认证博客专家 CSDN认证企业博客

码龄5年

42: 原创

39万+: 周排名

196万+: 总排名

2万+: 访问

: 等级

490: 积分

166: 粉丝

39: 获赞

36: 评论

215: 收藏

私信

关注

热门文章

分类专栏

最新评论

爬虫-1-基础和urllib
还是记不住: 还有一个错误是： [code=plain] urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1091)> [/code] Python 2.7.9 之后引入了一个新特性，当使用urllib.urlopen一个 https 的时候会验证一次 SSL证书。当目标使用的是自签名的证书时就会报urllib.error.URLError错误解决方式： [code=python] import ssl ssl._create_default_https_context = ssl._create_unverified_context [/code]
爬虫-1-基础和urllib
还是记不住: 已在评论区修改
爬虫-1-基础和urllib
还是记不住: 'gbk'的问题，只需要在header里面加一个Cookie，空值都可以，这一块需要进行网页分析，当爬取url之后，发现html中标签里面不在含有数据，而是存在了其他地方了，查看网页源代码发现数据存在window.__SEARCH_RESULT__这个js里面，所以这个地方再对html标签进行匹配肯定是不行的，所以要换个匹配方式，然后将这串数据转json，之后再进行处理，修改之后的结果看评论
爬虫-1-基础和urllib
还是记不住: [code=python] import urllib from urllib import request import re import json headers = { "Cookie":"", "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36" } # 前程无忧职位网址 url = "https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=" # 开始爬取 req = urllib.request.Request(url, headers=headers) response = urllib.request.urlopen(req) html = response.read().decode('gbk') # HTML源码 [/code]
爬虫-1-基础和urllib
还是记不住: [code=python] re_soup = re.search(r'window.__SEARCH_RESULT__ =(.*?)</script>', html) # 正则匹配方法得到岗位信息所在位置 json_data = json.loads(re_soup.group(1)) if re_soup != None: json_data = json.loads(re_soup.group(1)) for items in json_data["engine_jds"]: jobid = items['jobid'] print(jobid) job_name = items["job_name"] company_name = items["company_name"] company_type = items['companytype_text'] # 公司类型 company_size = items['companysize_text'] # 公司规模 company_ind = items['companyind_text'] # 公司属性 degreefrom = items['degreefrom'] workyear = items['workyear'] jobwelf = items["jobwelf"] providesalary_text = items["providesalary_text"] # 薪资 workarea = items['workarea'] workarea_text = items['workarea_text'] # 城市 issuedate = items['issuedate'] # 发布日期 attribute_text = items['attribute_text'] job_href = items['job_href'] # 职位链接 print(job_href) [/code]

最新文章

Python爬虫

关注

文章平均质量分 58

关注数：文章数：9 文章阅读量：12814 文章收藏量：205

作者: 还是记不住

记录学习

展开