自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 scarpy-爬取链家所有成交数据

spider的代码# -*- coding: utf-8 -*-import scrapyfrom scrapy.spiders import CrawlSpider, Rulefrom fake_useragent import UserAgentfrom scrapy.linkextractors import LinkExtractorfrom lianjia.items import LianjiaItemclass RsfjySpider(CrawlSpider): na

2020-07-22 16:35:22 375 1

原创 爬虫实现图灵聊天

图灵机器人官网: http://www.tuling123.com/第一步: 先注册, 然后创建机器人, 拿到一个32位的key编码方式UTF-8(调用图灵API的各个环节的编码方式均为UTF-8)接口地址http://openapi.tuling123.com/openapi/api/v2请求方式HTTP POST请求参数请求参数格式为 json{ "reqType":0, "perception": { "inputText": { .

2020-07-13 17:22:41 308

原创 51job-爬虫

import requestsimport urllib3from fake_useragent import UserAgentfrom lxml import etreeimport csvimport timeurllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)def get_html(page, keyword, header): url = f'https://search.51job.co

2020-07-10 22:16:56 459 1

原创 爬虫腾讯地图-5WNBZ-2JYR6-SPUSL-M3WGH-U4KDT-K2FYV

#!coding=utf-8import requestsimport reimport randomimport timeimport json# from requests.packages.urllib3.exceptions import InsecureRequestWarningimport pandas as pd# requests.packages.urllib3.disable_warnings(InsecureRequestWarning) ###禁止提醒SSL警告

2020-07-10 20:10:53 440

原创 爬虫百度地图

# 在这里插入代码片# ```import requestsimport reimport csvimport timedef BusinessFromBaiduDitu(citycode='29', key_word='汽车美容', pageno=8): parameter = { "newmap": "1", "reqflag": "pcmap", "biz": "1", "from": "webmap",

2020-07-10 20:08:52 1032

原创 高德爬虫-be9a3aad357a3e5604bf8e239443d161

from urllib.parse import quotefrom urllib import requestimport jsonimport xlwt#TODO 替换为上面申请的密钥amap_web_key = ''poi_search_url = "http://restapi.amap.com/v3/place/text"poi_boundary_url = "https://ditu.amap.com/detail/get/detail"#from transCoordinat

2020-07-10 20:07:39 375

原创 爬虫实战-爬取百度图片

# -*- coding: utf-8 -*-"""根据搜索词下载百度图片"""import reimport urllibimport requestsdef get_onepage_urls(onepageurl): """获取单个翻页的所有图片的urls+当前翻页的下一翻页的url""" if not onepageurl: print('已到最后一页, 结束') return [], '' try: html =

2020-06-03 20:47:52 287

原创 python实战-爬取斗鱼所有颜值主播头像

#coding:utf-8import requestsimport re'''爬取斗鱼所有颜值主播头像'''# 使用列表推导式生成要爬取的网页url列表page_list = ["https://www.douyu.com/gapi/rknc/directory/yzRec/{}".format(i) for i in range(1, 5)]print(page_list)# 遍历每一个网页url列表for page in page_list: # 分别对每一个url进行

2020-06-01 15:45:10 773

原创 python实战-爬取拉钩指定岗位数据

import requestsimport csvimport timeimport random# 初始urlstart_url = 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput='# 真实的urlurl = 'https://www.lagou.com/

2020-06-01 14:26:58 330

原创 python实战-B站视屏

import requestsimport reimport you_getimport sysvideo_name = input('请输入你想要看的内容:')page = input('你想观赏第几页:')url = 'https://search.bilibili.com/video?keyword={}&page={}'.format(video_name, page)path = 'E:/哔哩哔哩小视频' # 视频保存的路径response = requests.get(

2020-06-01 14:11:34 133

原创 python实战4-人 民 日 报

import requestsfrom pyquery import PyQueryimport datetimeimport timedef get_html(url): ''' 功能:访问 url 的网页,获取网页内容并返回 参数:目标网页的 url 返回:目标网页的 html 内容 ''' headers = { 'accept': 'text/html,application/xhtml+xml,application/xm

2020-06-01 14:06:56 121

原创 爬虫实战-爬取B站top小视频

import requestsimport randomimport timedef get_json(url, num):headers = {‘User-Agent’:‘Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36’}params = { 'page_size': 10, 'next_offset': str

2020-05-31 16:46:11 501

原创 爬虫实战3-多进程爬取拉钩全网数据

第一步 先爬取拉钩首页数据 得到所有的岗位名称 和urlimport requestsfrom pyquery import PyQueryimport jsonheader = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}def get_html(url, hea

2020-05-14 21:16:48 195

原创 爬虫实战2-猫眼电影top100

import requestsfrom pyquery import PyQueryheader = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}def get_html(url, header=''): ''' :param url: 要访问的地址

2020-05-13 21:12:36 272 1

原创 爬虫实战1-多进程爬取 名言网

import requestsimport refrom multiprocessing import Pooldef get_html(url, header=''): ''' :param url: http://quotes.toscrape.com/ :param header: 设置请求头 这个网站没有反爬 可以不设置 :return: 返回响应数据 ''' response = requests.get(url, headers=head

2020-05-13 17:33:44 223

转载 正则表达式

正则表达式正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式可以干什么?快速高效的查找与分析字符串进行有规律查找比对字符串,也叫:模式匹配具有查找、比对、匹配、替换、插入、添加、删除等能力。  字符串是编程时涉及到的最多的

2020-05-13 15:42:22 257

转载 7.requests详解

安装首先,requests 库是 Python 的一个第三方库,不是自带的。所以我们需要额外安装。在这之前需要你先安装好 Python3 环境,如 Python 3.6 版本,如若没有安装可以参考:https://cuiqingcai.com/5059.html。安装好 Python3 之后,我们使用 pip3 即可轻松地安装好 requests 库:pip3 install requests更详细的安装方式可以参考:https://cuiqingcai.com/5132.html。安装完成之后

2020-05-12 21:52:00 28143

转载 6.多线程-进程池

在上一课时我们了解了多线程的基本概念,同时我们也提到,Python 中的多线程是不能很好发挥多核优势的,如果想要发挥多核优势,最好还是使用多进程。那么本课时我们就来了解下多进程的基本概念和用 Python 实现多进程的方法。多进程的含义进程(Process)是具有一定独立功能的程序关于某个数据集合上的一次运行活动,是系统进行资源分配和调度的一个独立单位。顾名思义,多进程就是启用多个进程同时运行。由于进程是线程的集合,而且进程是由一个或多个线程构成的,所以多进程的运行意味着有大于或等于进程数量的线程在

2020-05-12 17:37:39 142

转载 5.多线程-多进程-(上)

我们知道,在一台计算机中,我们可以同时打开许多软件,比如同时浏览网页、听音乐、打字等等,看似非常正常。但仔细想想,为什么计算机可以做到这么多软件同时运行呢?这就涉及到计算机中的两个重要概念:多进程和多线程了。同样,在编写爬虫程序的时候,为了提高爬取效率,我们可能想同时运行多个爬虫任务。这里同样需要涉及多进程和多线程的知识。多线程的含义说起多线程,就不得不先说什么是线程。然而想要弄明白什么是线程,又不得不先说什么是进程。进程我们可以理解为是一个可以独立运行的程序单位,比如打开一个浏览器,这就开启了一个

2020-05-12 17:18:05 139

转载 4.session和cookie

我们在浏览网站的过程中,经常会遇到需要登录的情况,而有些网页只有登录之后才可以访问,而且登录之后可以连续访问很多次网站,但是有时候过一段时间就需要重新登录。还有一些网站,在打开浏览器时就自动登录了,而且很长时间都不会失效,这种情况又是为什么?其实这里面涉及 Session 和 Cookies 的相关知识,本节就来揭开它们的神秘面纱。静态网页和动态网页在开始介绍它们之前,我们需要先了解一下静态网页和动态网页的概念。这里还是前面的示例代码,内容如下:<!DOCTYPE html><h

2020-05-10 14:06:09 242

转载 3.爬虫的基本原理

爬虫的基本原理我们可以把互联网比作一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛。如果把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。爬虫概述简单来说,爬虫就是获取网页并提取和保存信息的自动化程序,下面概要介绍一下。获取网页爬虫首先要做的工作就是获取网页,这

2020-05-09 22:36:44 209

转载 2.Web 网页基础

Web 网页基础网页的组成首先,我们来了解网页的基本组成,网页可以分为三大部分:HTML、CSS 和 JavaScript。如果把网页比作一个人的话,HTML 相当于骨架,JavaScript 相当于肌肉,CSS 相当于皮肤,三者结合起来才能形成一个完整的网页。下面我们来分别介绍一下这三部分的功能。HTMLHTML 是用来描述网页的一种语言,其全称叫作 Hyper Text Markup Language,即超文本标记语言。我们浏览的网页包括文字、按钮、图片和视频等各种复杂的元素,其基础架构就是

2020-05-09 21:48:10 244

转载 1.HTTP 基本原理

HTTP 基本原理URI 和 URL首先,我们来了解一下 URI 和 URL,URI 的全称为 Uniform Resource Identifier,即统一资源标志符,URL 的全称为 Universal Resource Locator,即统一资源定位符。举例来说,https://github.com/favicon.ico,它是一个 URL,也是一个 URI。即有这样的一个图标资源,我们用 URL/URI 来唯一指定了它的访问方式,这其中包括了访问协议 HTTPS、访问路径(即根目录)和资源名称

2020-05-09 21:17:18 577

原创 python基础语法

注释单行注释:# #号后面的 不会被计算机执行多行注释:python没有多行注释 但是 默认用三引号包围的内容为多行注释 比如 ‘’‘这是个多行注释 注释’’’特殊注释:1. #!/usr/bin/python3#!/usr/bin/python3# -*- coding:UTF-8 -*-# 上面的是两个特殊注释 一般放在顶端 设置python的解释器和编码# (在win...

2020-03-20 22:30:06 226

原创 python语言概述和开发环境

python语言概述和开发环境python简介Python之父——Guido van Rossum。Python是一种解释性计算机编程语言,在1989年由Guido van Rossum开发。1991年公开发行。Python的名字来源于BBC系列喜剧剧本《Monty Python’s Flying Circus》(巨蟒的飞行马戏)。圭多在研发新语言时,正在阅读该书,因此,这位伟大的计算机科...

2020-03-20 17:16:01 777

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除