![](https://img-blog.csdnimg.cn/202101101114579.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫
爬爬爬,我要捉虫子
sliver_goup
没有理想就不配哭泣
展开
-
爬取华为手机数据(六)
所用软件 我发现这个工具对于爬取测试是不错的,相比于Pycharm而言,工具的选择也是很重要的,合作共赢。 参考的学习来源 参考B站上的 https://www.bilibili.com/video/BV1qp4y1X7yX?t=2198,学习效率更好一点。 (嘿嘿,在人家辛苦的创作获取了知识,必须推广一波) 代码就不详细解释,多练很重要。 爬爬爬 (我的代码是在) 到达指定页面,手动登录吧(我的淘宝必须得扫码登录) from selenium import webdriver url = 'https:原创 2021-03-02 23:28:08 · 1043 阅读 · 1 评论 -
爬虫(五)
这个小箭头,点击你想要看的位置,就会跳到你想要的标签。 根据下图可以写出xpath,//*[@id=“primaryChannelMenu”]/span[3]/div/a/span/text()’ , # 导入模块 import requests from lxml import etree # 指定url url = 'https://www.bilibili.com/' # 伪装头 header = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; W原创 2021-03-02 23:27:51 · 89 阅读 · 0 评论 -
爬虫(四)
简单解释 url = http://www.win4000.com/zt/dongman.html 没错,要对这个网址下手了 首先导入我们的requests模块,先设好url和响应头信息。 import requests # 指定第一个url url = 'http://www.win4000.com/zt/dongman.html' # 指定伪装头 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit转载 2021-01-12 17:14:37 · 329 阅读 · 1 评论 -
爬虫(三)
对一些名词的了解 红色图框就是专门捕获动态响应数据的地方 下面这个url,就是我们需要的功能的url。 From Data,这个东西就是发送给服务器的参数 爬有道翻译,熟悉流程 # !/usr/bin/env python # _*_ coding:utf-8 -*- import requests import json class translation(object): def __init__(self, word): self.url = 'http://fan原创 2021-01-12 17:12:32 · 98 阅读 · 0 评论 -
爬虫(二)
找到User-Agent 指定url:url = ‘https://www.baidu.com/s?wd’+wd(要搜索的内容) 在下图可看到user-agent 爬取页面代码,有具体详解: import requests #常用请求头信息 #User-Agent:请求载体的身份标识(伪装身份的道具) #Connection:请求完毕后,是断开连接还是保持连接 header={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWe转载 2021-01-12 17:06:19 · 88 阅读 · 0 评论 -
爬虫(一)
爬虫分类 抓取数据的范围分类 全网爬虫:用于抓取整个互联网的数据,主要用于搜索引擎; 站内爬虫:抓取站内的网络资源,主要用于企业内部搜索引擎的数据源; 定向爬虫:只关心特定的数据,应用相当广泛。 抓取的内容与方式分类 网页文本爬虫 图像爬虫 JS爬虫 异步数据爬虫 处理验证码登陆的爬虫 抓取其他的爬虫 编写第一个网络爬虫 #引入模块 import requests #要爬取的链接,指定url url = 'https://www.baidu.com/' #发出请求(get方法会返回一个响应对象) respo原创 2021-01-12 17:04:28 · 77 阅读 · 0 评论