爬虫
jaray
这个作者很懒,什么都没留下…
展开
-
pycharm控制台出现import sys等解决方案sys.path.extend import sys; print(
import sys; print(‘Python %s on %s’ % (sys.version, sys.platform))sys.path.extend([‘C:\Users\Administrator\Desktop\PyTools’, ‘C:/Users/Administrator/Desktop/PyTools’])出现以上问题处理方法:原创 2020-11-21 09:57:35 · 6051 阅读 · 0 评论 -
python 爬取二级页面(整站下载)
爬取地址:https://www.gupiaoxuexi.com/post/1319原码:from requests_html import HTMLSessionimport ossession = HTMLSession()headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Saf原创 2020-10-03 23:24:59 · 1217 阅读 · 0 评论 -
爬取天涯帖子(单个帖)
朋友让看一个天涯的帖子,打开帖子看了3页,一共有135页,这个帖子已经写了2年多了,回帖的人很多,想只看楼主的帖子,还要vip帐户,让我充vip,呵呵,可能吗?经过研究,成功爬下全文:该代码使用时,一定要使用自己的天涯帐户进行先登录,把页面的cookie值copy到下面的代码中,否则无法获取任何内容!代码如下:from requests_html import HTMLSessionimport timesession = HTMLSession()headers = { "Us原创 2020-09-19 22:57:14 · 589 阅读 · 0 评论 -
python数据爬虫——数据分析师岗位基本信息爬取(一)
爬取网址:www.51job.com1.首先我们来分析需要爬取网站的情况在51job中输入:数据分析师具体过程详解,请移步:https://blog.csdn.net/qq_31848185/article/details/88967352贴上我的过程,两种方式两种思路,没有好坏之分,共同学习,在此再一次感谢,前一位博主!from requests_html import HTMLSessionimport timesession = HTMLSession()#定义一个url函原创 2020-06-07 00:24:50 · 619 阅读 · 0 评论 -
python数据爬虫——如何爬取二级页面(三)
爬取二级页面,最重要的是找到二级页面地址,从一级页面中找到以后,使用session.get(url2),可以进入二级页面,按正常的方法便可爬取页面信息:如果想看不同的方法,请移步:python数据爬虫——如何爬取二级页面(三)以下是我用的方法:from requests_html import HTMLSessionimport timefrom openpyxl import Workbookwb=Workbook()ws=wb.activews.append(['职位', '公司名原创 2020-06-08 01:24:25 · 4986 阅读 · 0 评论 -
【爬虫]python数据爬虫——数据分析师岗位基本信息爬取(二)运用openpyxl将爬取信息存入excel表中
另一种方法,移步:爬取信息存入excel表他使用的是lxml,而下面使用是openpyxl,方法没有好坏,掌握多了,才能灵活运用。在此再次感谢该博主。```pythonfrom requests_html import HTMLSessionfrom openpyxl import Workbookimport timewb=Workbook()ws=wb.activesession = HTMLSession()ws.append(['职位','公司名','工作地点','薪资'])原创 2020-06-07 18:17:36 · 425 阅读 · 0 评论 -
[爬虫]beatifusoup简单教程
一个不能再简明的教程,强力推荐:beautifulsoup菜鸟教程在上面的教程中,有两个文件如下:aa.html完整代码<!DOCTYPE html><html><head> <meta content="text/html;charset=utf-8" http-equiv="content-type" /> <meta content="IE=Edge" http-equiv="X-UA-Compatible" />原创 2020-06-07 17:26:37 · 830 阅读 · 0 评论 -
[爬虫]两种方法openpyxl和xlwt
第一种方法:附上openpyxl官方使用文档 我比较喜欢这种方式,简单、效率高from openpyxl import Workbookwb = Workbook()# grab the active worksheetws = wb.active# Data can be assigned directly to cellsws['A1'] = 33# Rows can also be appendedws.append([1, 2, 3])# Python types w.原创 2020-06-07 08:00:24 · 407 阅读 · 0 评论 -
python爬虫:使用xpath和find两种方式分别实现使用requests_html库爬取网页中的内容
在此先感谢https://blog.csdn.net/weixin_43790560/article/details/86617630这位博主,详细的过程,收益匪浅这几天一直在研究requests_html,这是一个超级好用的工具,同是实现爬取一样的内容,却比requests少很多代码,实现起来更简单。今天爬取的网站是:https://cpppatterns.com/patterns/co...原创 2020-02-25 23:25:12 · 3098 阅读 · 1 评论