2019年08月_嗨学编程

转载 Python3爬虫获取三亚天气做旅游参照

代码走起来，爬虫套路上吧简单的requests，复杂的scrapy 总有一款适合你的哇哦~从2011年到2019年都有唉月份点进去，呈现了大概这些信息，最高气温，最低气温，天气，风向，风力，好了数据都有了http://lishi.tianqi.com/sanya/201101.html到这个地方不着急，慢慢来，一个天天写爬虫的人必须要对URL敏感，一看就嗨，小时候喜欢找规律的人长大都...

2019-08-31 15:22:16 1302

转载 Python3爬虫通过m3u8文件下载ts视频

什么是m3u8文件M3U8文件是指UTF-8编码格式的M3U文件。M3U文件是记录了一个索引纯文本文件，打开它时播放软件并不是播放它，而是根据它的索引找到对应的音视频文件的网络地址进行在线播放。原视频数据分割为很多个TS流，每个TS流的地址记录在m3u8文件列表中比如我这里有一个m3u8文件，文件内容如下#EXTM3U#EXT-X-VERSION:3#EXT-X-MEDIA-SEQ...

2019-08-31 15:18:15 5428

转载 Python3爬虫获取博客园文章定时发送到邮箱

写在前面关于获取文章自动发送到邮箱，这类需求其实可以写好几个网站，弄完博客园，弄CSDN，弄掘金，弄其他的，网站多的是呢~哈哈先从博客园开始，基本需求，获取python板块下面的新文章，间隔60分钟发送一次，时间太短估摸着没有多少新博客产出~抓取的页面就是这个https://www.cnblogs.com/cate/python需求整理获取指定页面的所有文章，记录文章相关信息，并且记...

2019-08-31 15:14:14 480

Python就业行情和前景分析之一爬取数据最近Python大热，就想要分析一下相关的市场需求，看一下Python到底集中在哪些城市，企业对Python工程师的一些需求到底是怎样的，基于此，爬取了国内某招聘平台的相关数据，获取到30000+条相关岗位，下面是一些图表，提供给你做相关的参考。下面的数据是工作名称中携带Python的岗位，比如Python工程师，Python开发类似名称。爬虫工程师...

2019-08-31 15:10:07 232

转载 pyspider抓取手机APP数据抓取

手机APP数据----页面分析咱要爬取的网站是 http://www.liqucn.com/rj/new/ 这个网站我看了一下，有大概20000页，每页数据是9个，数据量大概在180000左右，可以抓取下来，后面做数据分析使用，也可以练习优化数据库。网站基本没有反爬措施，上去爬就可以，略微控制一下并发，毕竟不要给别人服务器太大的压力。页面经过分析之后，可以看到它是基于URL进行的分页，这就...

2019-08-31 15:03:44 303

转载 pyspider抓取虎嗅网文章数据

1. 虎嗅网文章数据----写在前面今天继续使用pyspider爬取数据，很不幸，虎嗅资讯网被我选中了，网址为 https://www.huxiu.com/ 爬的就是它的资讯频道，本文章仅供学习交流使用，切勿用作其他用途。常规操作，分析待爬取的页面拖拽页面到最底部，会发现一个加载更多按钮，点击之后，抓取一下请求，得到如下地址2. 虎嗅网文章数据----分析请求查阅该请求的方式和地址，包...

2019-08-31 14:47:28 359

转载 Python爬虫框架：scrapy抓取B站博人传评论数据

1. B站博人传评论数据爬取简介今天想了半天不知道抓啥，去B站看跳舞的小姐姐，忽然看到了评论，那就抓取一下B站的评论数据，视频动画那么多，也不知道抓取哪个，选了一个博人传跟火影相关的，抓取看看。网址： https://www.bilibili.com/bangumi/media/md5978/?from=search&seid=16013388136765436883#short在这个...

2019-08-31 14:44:32 856

转载 python模拟登陆163邮箱并获取通讯录

#-*- coding:UTF-8 -*-import urllib,urllib2,cookielibimport xml.etree.ElementTree as etree #xml解析类'''遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！'''class Login163: #伪装browser hea...

2019-08-30 21:03:04 795

转载 Python登录人人网并抓取新鲜事

from sgmllib import SGMLParserimport sys,urllib2,urllib,cookielib'''遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！'''class spider(SGMLParser): def __init__(self,email,password): ...

2019-08-30 21:02:11 211

转载 Python实现金山快盘自动签到

import urllibimport urllib2import cookielibimport jsonimport re'''遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！'''class Login_kp: def __init__(self): cj = cookielib.Cookie...

2019-08-30 21:01:23 284

转载 Python爬取网易云音乐评论（附加密算法）

网易云音乐，里面汇聚了哲学家，小说家，story-teller，皮皮虾等各种人才，某些评论非常值得收藏（甚至开了一个歌单专门收藏它们）。竟然这么好玩，何不尝试把他们爬取下来呢？前置需求可选：fiddler 捉包工具（官网下载）可选：了解一点AES，RSA加密任一浏览器pycryptodome模块（直接pip安装）base64及binascii模块（直接导入）可选是指：如果你要...

2019-08-30 20:52:01 1069

原创 Python一些常用的爬虫技巧

第一种：基本的网页抓取get方法import urllib2url = "链接response = urllib2.urlopen(url)print response.read()post方法import urllibimport urllib2url = "链接form = {'name':'abc','password':'1234'}form_data = urll...

2019-08-30 14:50:47 192

转载 Python爬虫框架：scrapy爬取高考派大学数据

1. 高考派大学数据----写在前面终于写到了scrapy爬虫框架了，这个框架可以说是python爬虫框架里面出镜率最高的一个了，我们接下来重点研究一下它的使用规则。安装过程自己百度一下，就能找到3种以上的安装手法，哪一个都可以安装上可以参考 https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html 官方说明进行安装。2...

2019-08-29 20:20:07 1128

转载 Python爬虫框架：scrapy抓取40W博客

单纯的从每个栏目去爬取是不显示的，转换一下思路，看到搜索页面，有时间~，有时间！注意看URL链接https://zzk.cnblogs.com/s/blogpost?Keywords=python&datetimerange=Customer&from=2019-01-01&to=2019-01-01 这个链接得到之后，其实用一个比较简单的思路就可以获取到所有...

2019-08-29 20:11:52 185

转载 Python微医挂号网医生数据抓取

1. 写在前面今天要抓取的一个网站叫做微医网站，地址为 https://www.guahao.com ，我们将通过python3爬虫抓取这个网址，然后数据存储到CSV里面，为后面的一些分析类的教程做准备。本篇文章主要使用的库为pyppeteer 和 pyquery首先找到医生列表页https://www.guahao.com/expert/all/全国/all/不限/p5 这个页面显...

2019-08-29 20:09:36 740

转载 Python多线程爬取斗图啦表情包

斗图啦表情包多线程爬取-撸代码首先快速的导入我们需要的模块，和其他文章不同，我把相同的表情都放在了同一个文件夹下面，所以需要导入os模块import asyncioimport aiohttpfrom lxml import etreeimport os编写主要的入口方法if __name__ == '__main__': url_format = "http://www....

2019-08-29 15:38:19 564

转载 Python多线程爬取行行网电子书

行行网电子书多线程爬取-撸代码代码非常简单，有咱们前面的教程做铺垫，很少的代码就可以实现完整的功能了，最后把采集到的内容写到 csv 文件里面，(csv 是啥，你百度一下就知道了) 这段代码是IO密集操作我们采用aiohttp模块编写。第1步拼接URL，开启线程。import requests# 导入协程模块import asyncioimport aiohttp'''遇到不...

2019-08-29 15:31:54 1565

转载 Python多线程爬取图虫网

起始页面https://tuchong.com/explore/这个页面中有很多的标签，每个标签下面都有很多图片，为了和谐，我选择了一个非常好的标签花卉你可以选择其他的，甚至，你可以把所有的都爬取下来。https://tuchong.com/tags/%E8%8A%B1%E5%8D%89/ # 花卉编码成了 %E8%8A%B1%E5%8D%89 这个无所谓我们这次也玩点以前没写过...

2019-08-29 15:27:06 262

原创 python中几个常见的魔法方法

首先，什么是魔法方法呢？在python中方法名如果是__xxxx__()的，那么就有特殊的功能，因此叫做“魔法”方法。__ init__()方法当一个实例被创建的时候调用的初始化方法，在创建对象时默认调用。__ init __()方法中默认有一个参数名字为self，如果在创建对象时传递了2个参数，那么__init __()方法除了self作为第一个形参外还需要2个形参，例如__init _...

2019-08-29 15:19:20 676

转载 python协程爬取斗鱼美女图片

分析网站寻找需要的网址用谷歌浏览器摁F12打开开发者工具，然后打开斗鱼颜值分类的页面，如图：在里面的请求中，最后发现它是以ajax加载的数据，数据格式为json，如图：圈住的部分是我们需要的数据，然后复制它的网址为https://www.douyu.com/gapi/rknc/directory/yzRec/1，出于学习目的只爬取第一页（减少服务器压力）。然后把网址放到浏览器中测试是否可...

2019-08-29 14:54:41 299

转载用 Python 爬取电影，这些电影真的很不错

首先要分析一下电影天堂网站的首页结构。从上面的菜单栏中我们可以看到整个网站资源的总体分类情况。刚刚好我们可以利用到它的这个分类，将每一个分类地址作为爬虫的起点。①解析首页地址提取分类信息#解析首页def CrawIndexPage(starturl): print "正在爬取首页" page = __getpage(starturl) if page=="err...

2019-08-29 14:37:39 1830

转载 Python爬取美空网数据

美空网数据----爬虫数据存储确定了爬虫的目标，接下来，我做了两件事情，看一下，是否对你也有帮助确定数据存储在哪里？最后我选择了MongoDB用正则表达式去分析网页数据引入必备模块import requests #网络请求模块import random #随机模块import re #正则表达式模块import time #时间模块im...

2019-08-26 15:49:19 510

原创用PYTHON爬虫简单爬取网络小说

用PYTHON爬虫简单爬取网络小说。这里是17K小说网上，随便找了一本小说，名字是《千万大奖》。里面主要是三个函数：1、get_download_url() 用于获取该小说的所有章节的URL。分析了该小说的目录页http://www.17k.com/list/2819620.html的HTML源码，发现其目录是包含在Volume里的A标签合集。所以就提取出了URLS列表。2、get_co...

2019-08-24 15:14:58 2333

原创 Python中的单例模式的几种实现方式的及优化

单例模式单例模式（Singleton Pattern）是一种常用的软件设计模式，该模式的主要目的是确保某一个类只有一个实例存在。当你希望在整个系统中，某个类只能出现一个实例时，单例对象就能派上用场。比如，某个服务器程序的配置信息存放在一个文件中，客户端通过一个 AppConfig 的类来读取配置文件的信息。如果在程序运行期间，有很多地方都需要使用配置文件的内容，也就是说，很多地方都需要创建 A...

2019-08-23 20:53:14 165

原创学习Python爬虫，抓取美女图片它不香嘛？

学习编程语言是很枯燥的，尤其是对一个编程零基础的人来说，更为枯燥！所以我们要从枯燥的学习中找点乐趣和动力！比如，抓点小姐姐的图片完整代码import osimport timeimport requestsfrom lxml import etree'''遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！'''def g...

2019-08-23 15:52:39 253

原创 Python web框架：Session

除请求对象之外，还有一个 session 对象。它允许你在不同请求间存储特定用户的信息。它是在 Cookies 的基础上实现的，并且对 Cookies 进行密钥签名要使用会话，你需要设置一个密钥。设置：session[‘username’] ＝ ‘xxx’删除：session.pop(‘username’, None)from flask import Flask,url_for,ses...

2019-08-23 15:49:49 904

原创 Python web框架：flask模板语法

1、模板的使用Flask使用的是Jinja2模板，所以其语法和Django无太大差别Flask中模板里面，执行函数时，需要带（）才执行1.为了防止xss攻击，加了验证，所以页面上显示字符串的形式，解决办法，有两种方法方法一：在后端使用Markup，等价于Django里的mark_safe v = Markup("<input type='text' />")方法二：在前端...

2019-08-23 15:47:19 616

原创 Python web框架：flask请求与响应

from flask import Flask from flask import request from flask import render_template from flask import redirect from flask import make_response'''遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以...

2019-08-23 15:42:55 614

原创 Python web框架：flask视图函数

1.Django中的CBV模式2.Flask中的CBV和FBVdef auth(func): def inner(*args, **kwargs): result = func(*args, **kwargs) return result return innerclass IndexView(views.MethodView): ...

2019-08-23 15:41:17 1329

原创 Python web框架：flask路由系统

1.可传入参数：@app.route('/user/<username>') #常用的不加参数的时候默认是字符串形式的@app.route('/post/<int:post_id>') #常用的 #指定int，说明是整型的@app.route('/post/<float:post_id>')@app.route('/post/<pa...

2019-08-23 15:37:22 307

原创 Python web框架：flask配置文件

flask中的配置文件是一个flask.config.Config对象（继承字典）,默认配置为： { 'DEBUG': get_debug_flag(default=False), 是否开启Debug模式 'TESTING': False...

2019-08-23 15:34:55 640

原创 Python web框架：Flask的基本使用

一、Flask介绍（轻量级的框架，非常快速的就能把程序搭建起来）Flask是一个基于Python开发并且依赖jinja2模板和Werkzeug WSGI服务的一个微型框架，对于Werkzeug本质是Socket服务端，其用于接收http请求并对请求进行预处理，然后触发Flask框架，开发人员基于Flask框架提供的功能对请求进行相应的处理，并返回给用户，如果要返回给用户复杂的内容时，需要借助ji...

2019-08-23 15:31:55 528

原创 Python 爬虫：爬取盘搜搜

要的思路：（1）根据关键字爬取盘搜搜的相关信息（2）解析并获取盘搜搜跳转到百度网盘的URL地址（3）解析百度网盘获取真实下载URL然后下载文件本来下了一段ip代理处理的，可惜免费爬取的IP时效性差基本上用不了，所以下面给出的是没有ip代理demo然而没有ip代理处理的话，下载不到几个文件ip就被封了。所以下面的代码仅供学习。# -*- coding=utf-8 -*-import...

2019-08-23 15:04:06 1289

转载 Python爬取拉勾网并对其进行岗位分析

本文目标1、获取 Ajax 请求,解析 JSON 中所需字段2、数据保存到 Excel 中3、数据保存到 MySQL, 方便分析简单分析五个城市 Python 岗位平均薪资水平Python 岗位要求学历分布Python 行业领域分布Python 公司规模分布查看页面结构我们输入查询条件以 Python 为例，其他条件默认不选，点击查询，就能看到所有 Python 的岗位...

2019-08-21 21:04:29 2273

转载 Python公众号开发(二)—颜值检测

上篇文章，我们把自己的程序接入了微信公众号，并且能把用户发送的文本及图片文件原样返回。今天我们把用户的图片通过腾讯的AI平台分析后再返回给用户。效果图一. 接入腾讯AI平台我们先看一下官方人脸检测与分析接口的描述：检测给定图片（Image）中的所有人脸（Face）的位置和相应的面部属性。位置包括（x, y, w, h），面部属性包括性别（gender）, 年龄（age）, 表情（ex...

2019-08-21 15:14:20 268

转载 Python微信公众号开发—小白篇

本篇文章首先实现与公众号的对接，实现简单的回复文字、图片内容。下一篇会对接腾讯的AI平台，实现对照片的人脸检测与分析，分析年龄、性别、表情、魅力值等。准备工作首先要注册一个公众号，这个很简单，我们到微信公众平台注册就可以了，选择个人订阅号就可以。但是如果可以认证的，我建议选择认证订阅号，因为未认证的号很多功能权限都没有。好了，话不多说进入正题。1. 配置公众号打开公众号，在开发->...

2019-08-21 15:10:03 7735 3

转载一个神奇的方法，教你如何用 Python 来开机

本文目标远程开机原理Python 远程开机代码实现Python 关机说明Python 开机关于用程序来开机，是怎么做到的呢？这就是 WOL 技术 Wake-On-Lan, 利用计算机在关机或休眠状态时，网卡及主板部分仍然有微弱的供电，当然要保持电源是插上的，而且是有线连接。所以即使在关机情况下，网卡还是有一定运作能力的，可以监听计算机外部的网上广播信息，当发现特定格式的信息后就会执行...

2019-08-21 15:06:17 1254

原创 python爬虫爬取腾讯招聘信息（静态爬虫）

环境：windows7python3.4代码：import requestsfrom bs4 import BeautifulSoupfrom math import ceil'''遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！'''header = { 'User-Agent': 'Mozilla/5....

2019-08-20 20:45:34 1292 3

原创 Scrapy的安装：Windows、linux、mac等操作平台

Scrapy安装Scrapy的安装有多种方式，它支持Python2.7版本及以上或者是Python3.3版本及以上。下面来说py3环境下，scrapy的安装过程。Scrapy依赖的库比较多，至少需要依赖库Twisted 14.0，lxml 3.4，pyOpenSSL0.14。在不同平台环境又不相同，所以在安装前确保先把一些基本库安装好，尤其是Windows。一、Anaconda这种方...

2019-08-20 20:43:49 514

转载 python爬取新浪微博（爬取微博帐号所发内容，不爬取历史内容）

实现：跟踪比较活跃的微博号所发的微博内容，隔3-5分钟刷新（爬取）一次，只有更新了才爬的到，不爬取历史微博内容哦，爬取正文、文中图片、所属微博昵称、发布时间（时间戳格式)。python_service.pyimport win32serviceutilimport win32serviceimport win32eventimport re,requests,time,datetime...

2019-08-20 20:40:30 1093

python表白弹窗.py

Python开发植物大战僵尸游戏.rar

空空如也