难为知己~难为敌-CSDN博客

原创 scarpy-爬取链家所有成交数据

spider的代码# -*- coding: utf-8 -*-import scrapyfrom scrapy.spiders import CrawlSpider, Rulefrom fake_useragent import UserAgentfrom scrapy.linkextractors import LinkExtractorfrom lianjia.items import LianjiaItemclass RsfjySpider(CrawlSpider): na

2020-07-22 16:35:22 375 1

原创爬虫实现图灵聊天

图灵机器人官网: http://www.tuling123.com/第一步: 先注册, 然后创建机器人, 拿到一个32位的key编码方式UTF-8（调用图灵API的各个环节的编码方式均为UTF-8）接口地址http://openapi.tuling123.com/openapi/api/v2请求方式HTTP POST请求参数请求参数格式为 json{ "reqType":0, "perception": { "inputText": { .

2020-07-13 17:22:41 308

原创 51job-爬虫

import requestsimport urllib3from fake_useragent import UserAgentfrom lxml import etreeimport csvimport timeurllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)def get_html(page, keyword, header): url = f'https://search.51job.co

2020-07-10 22:16:56 459 1

原创爬虫腾讯地图-5WNBZ-2JYR6-SPUSL-M3WGH-U4KDT-K2FYV

#!coding=utf-8import requestsimport reimport randomimport timeimport json# from requests.packages.urllib3.exceptions import InsecureRequestWarningimport pandas as pd# requests.packages.urllib3.disable_warnings(InsecureRequestWarning) ###禁止提醒SSL警告

2020-07-10 20:10:53 440

原创爬虫百度地图

# 在这里插入代码片# ```import requestsimport reimport csvimport timedef BusinessFromBaiduDitu(citycode='29', key_word='汽车美容', pageno=8): parameter = { "newmap": "1", "reqflag": "pcmap", "biz": "1", "from": "webmap",

2020-07-10 20:08:52 1032

原创高德爬虫-be9a3aad357a3e5604bf8e239443d161

from urllib.parse import quotefrom urllib import requestimport jsonimport xlwt#TODO 替换为上面申请的密钥amap_web_key = ''poi_search_url = "http://restapi.amap.com/v3/place/text"poi_boundary_url = "https://ditu.amap.com/detail/get/detail"#from transCoordinat

2020-07-10 20:07:39 375

原创爬虫实战-爬取百度图片

# -*- coding: utf-8 -*-"""根据搜索词下载百度图片"""import reimport urllibimport requestsdef get_onepage_urls(onepageurl): """获取单个翻页的所有图片的urls+当前翻页的下一翻页的url""" if not onepageurl: print('已到最后一页, 结束') return [], '' try: html =

2020-06-03 20:47:52 287

原创 python实战-爬取斗鱼所有颜值主播头像

#coding:utf-8import requestsimport re'''爬取斗鱼所有颜值主播头像'''# 使用列表推导式生成要爬取的网页url列表page_list = ["https://www.douyu.com/gapi/rknc/directory/yzRec/{}".format(i) for i in range(1, 5)]print(page_list)# 遍历每一个网页url列表for page in page_list: # 分别对每一个url进行

2020-06-01 15:45:10 773

原创 python实战-爬取拉钩指定岗位数据

import requestsimport csvimport timeimport random# 初始urlstart_url = 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput='# 真实的urlurl = 'https://www.lagou.com/

2020-06-01 14:26:58 330

原创 python实战-B站视屏

import requestsimport reimport you_getimport sysvideo_name = input('请输入你想要看的内容:')page = input('你想观赏第几页:')url = 'https://search.bilibili.com/video?keyword={}&page={}'.format(video_name, page)path = 'E:/哔哩哔哩小视频' # 视频保存的路径response = requests.get(

2020-06-01 14:11:34 133

原创 python实战4-人民日报

import requestsfrom pyquery import PyQueryimport datetimeimport timedef get_html(url): ''' 功能：访问 url 的网页，获取网页内容并返回参数：目标网页的 url 返回：目标网页的 html 内容 ''' headers = { 'accept': 'text/html,application/xhtml+xml,application/xm

2020-06-01 14:06:56 121

原创爬虫实战-爬取B站top小视频

import requestsimport randomimport timedef get_json(url, num):headers = {‘User-Agent’:‘Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36’}params = { 'page_size': 10, 'next_offset': str

2020-05-31 16:46:11 501

原创爬虫实战3-多进程爬取拉钩全网数据

第一步先爬取拉钩首页数据得到所有的岗位名称和urlimport requestsfrom pyquery import PyQueryimport jsonheader = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}def get_html(url, hea

2020-05-14 21:16:48 195

原创爬虫实战2-猫眼电影top100

import requestsfrom pyquery import PyQueryheader = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}def get_html(url, header=''): ''' :param url: 要访问的地址

2020-05-13 21:12:36 272 1

原创爬虫实战1-多进程爬取名言网

import requestsimport refrom multiprocessing import Pooldef get_html(url, header=''): ''' :param url: http://quotes.toscrape.com/ :param header: 设置请求头这个网站没有反爬可以不设置 :return: 返回响应数据 ''' response = requests.get(url, headers=head

2020-05-13 17:33:44 223

转载正则表达式

正则表达式正则表达式是对字符串（包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”））操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，该模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式可以干什么?快速高效的查找与分析字符串进行有规律查找比对字符串，也叫：模式匹配具有查找、比对、匹配、替换、插入、添加、删除等能力。　　字符串是编程时涉及到的最多的

2020-05-13 15:42:22 257

转载 7.requests详解

安装首先，requests 库是 Python 的一个第三方库，不是自带的。所以我们需要额外安装。在这之前需要你先安装好 Python3 环境，如 Python 3.6 版本，如若没有安装可以参考：https://cuiqingcai.com/5059.html。安装好 Python3 之后，我们使用 pip3 即可轻松地安装好 requests 库：pip3 install requests更详细的安装方式可以参考：https://cuiqingcai.com/5132.html。安装完成之后

2020-05-12 21:52:00 28143

转载 6.多线程-进程池

在上一课时我们了解了多线程的基本概念，同时我们也提到，Python 中的多线程是不能很好发挥多核优势的，如果想要发挥多核优势，最好还是使用多进程。那么本课时我们就来了解下多进程的基本概念和用 Python 实现多进程的方法。多进程的含义进程（Process）是具有一定独立功能的程序关于某个数据集合上的一次运行活动，是系统进行资源分配和调度的一个独立单位。顾名思义，多进程就是启用多个进程同时运行。由于进程是线程的集合，而且进程是由一个或多个线程构成的，所以多进程的运行意味着有大于或等于进程数量的线程在

2020-05-12 17:37:39 142

转载 5.多线程-多进程-（上）

我们知道，在一台计算机中，我们可以同时打开许多软件，比如同时浏览网页、听音乐、打字等等，看似非常正常。但仔细想想，为什么计算机可以做到这么多软件同时运行呢？这就涉及到计算机中的两个重要概念：多进程和多线程了。同样，在编写爬虫程序的时候，为了提高爬取效率，我们可能想同时运行多个爬虫任务。这里同样需要涉及多进程和多线程的知识。多线程的含义说起多线程，就不得不先说什么是线程。然而想要弄明白什么是线程，又不得不先说什么是进程。进程我们可以理解为是一个可以独立运行的程序单位，比如打开一个浏览器，这就开启了一个

2020-05-12 17:18:05 139

转载 4.session和cookie

我们在浏览网站的过程中，经常会遇到需要登录的情况，而有些网页只有登录之后才可以访问，而且登录之后可以连续访问很多次网站，但是有时候过一段时间就需要重新登录。还有一些网站，在打开浏览器时就自动登录了，而且很长时间都不会失效，这种情况又是为什么？其实这里面涉及 Session 和 Cookies 的相关知识，本节就来揭开它们的神秘面纱。静态网页和动态网页在开始介绍它们之前，我们需要先了解一下静态网页和动态网页的概念。这里还是前面的示例代码，内容如下：<!DOCTYPE html><h

2020-05-10 14:06:09 242

转载 3.爬虫的基本原理

爬虫的基本原理我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。如果把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数据就可以被抓取下来了。爬虫概述简单来说，爬虫就是获取网页并提取和保存信息的自动化程序，下面概要介绍一下。获取网页爬虫首先要做的工作就是获取网页，这

2020-05-09 22:36:44 209

转载 2.Web 网页基础

Web 网页基础网页的组成首先，我们来了解网页的基本组成，网页可以分为三大部分：HTML、CSS 和 JavaScript。如果把网页比作一个人的话，HTML 相当于骨架，JavaScript 相当于肌肉，CSS 相当于皮肤，三者结合起来才能形成一个完整的网页。下面我们来分别介绍一下这三部分的功能。HTMLHTML 是用来描述网页的一种语言，其全称叫作 Hyper Text Markup Language，即超文本标记语言。我们浏览的网页包括文字、按钮、图片和视频等各种复杂的元素，其基础架构就是

2020-05-09 21:48:10 244

转载 1.HTTP 基本原理

HTTP 基本原理URI 和 URL首先，我们来了解一下 URI 和 URL，URI 的全称为 Uniform Resource Identifier，即统一资源标志符，URL 的全称为 Universal Resource Locator，即统一资源定位符。举例来说，https://github.com/favicon.ico，它是一个 URL，也是一个 URI。即有这样的一个图标资源，我们用 URL/URI 来唯一指定了它的访问方式，这其中包括了访问协议 HTTPS、访问路径（即根目录）和资源名称

2020-05-09 21:17:18 577

原创 python基础语法

注释单行注释：# #号后面的不会被计算机执行多行注释：python没有多行注释但是默认用三引号包围的内容为多行注释比如 ‘’‘这是个多行注释注释’’’特殊注释：1. #!/usr/bin/python3#!/usr/bin/python3# -*- coding:UTF-8 -*-# 上面的是两个特殊注释一般放在顶端设置python的解释器和编码# （在win...

2020-03-20 22:30:06 226

原创 python语言概述和开发环境

python语言概述和开发环境python简介Python之父——Guido van Rossum。Python是一种解释性计算机编程语言，在1989年由Guido van Rossum开发。1991年公开发行。Python的名字来源于BBC系列喜剧剧本《Monty Python’s Flying Circus》（巨蟒的飞行马戏）。圭多在研发新语言时，正在阅读该书，因此，这位伟大的计算机科...

2020-03-20 17:16:01 777

weixin_40594668的博客