Python
以语法和小demo为主
热气球、
如果有一天不再从事该职业,可以从这段经历中得到什么呢?
展开
-
python爬虫2.0.5ProxyIpPool---proxies使用代理IP
代理IP定义:代替你原来的IP地址去对接网络的IP地址作用:隐藏自身真是IP,避免被目标网站封掉。代理IP分类:高匿代理:web端只能看到代理IP普通代理:web端知道有人通过此代理IP访问,但不知道用户真是IP透明代理:web端能看到用户真实IP,也能看到代理IP应用场景:针对高频率访问的IP地址进行了反爬机制,封掉IP地址的网站代理IP地址:自行百度代理IP语法格式 proxies = { 'http': 'http://IP:端口号'原创 2022-03-19 10:48:54 · 4531 阅读 · 0 评论 -
python---requests模块查询参数params和verity
requests.get()方法中查询参数参数名:params,数据类型未字典作用:对url地址中的查询参数进行编码拼接使用示例res = requests.get(url=baseurl,params=params,headers=headers)url为基准的url地址,不包含查询参数会自动对params字典编码,然后和url拼接SSL证书认证参数参数说明:参数名 verify参数值 True|False适用网站:https类型网站但是没有经过证书认证机构认证的网站适用场景当原创 2022-03-06 12:55:22 · 3596 阅读 · 0 评论 -
python爬虫2.0.4LianHomeSpider---基于xpath进行获取数据
上海地区"""目标数据: 房源名称、地址、户型、面积、方位、是否精装、楼层、年代、类型、总价、单价"""import requestsfrom lxml import etreeimport randomimport timefrom fake_useragent import UserAgentclass LianHomeSpider: def __init__(self): self.url = 'https://sh.lianjia.com/ershouf原创 2022-02-28 09:25:23 · 333 阅读 · 0 评论 -
python之xpath练习demo
""""https://y.qq.com/n/ryqq/toplist/26/html/body/div/div/div[2]/div[2]/div[3]/ul[2]/li[1]"""import requestsfrom lxml import etreeurl = 'https://y.qq.com/n/ryqq/toplist/26'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) A原创 2022-02-20 17:17:47 · 640 阅读 · 0 评论 -
python爬虫2.0.3CarHomeSpiderIncrementalRedis---基于Redis实现增量爬虫
原理Redis基于内存,效率极高利用Redis中集合的特性,自动去重,可以轻松管理所有请求的指纹实现思路利用集合的sadd()方法向集合中添加指纹,根据返回值来判断集合中是否存在该指纹添加成功返回1,表示此请求之前并未抓取过添加失败返回0,表示此请求之前已经抓取过环境准备#cat redis.ymlversion: '3'services: redis: image: redis:5.0.0 container_name: redis co原创 2022-02-19 15:55:07 · 209 阅读 · 0 评论 -
python爬虫2.02CarHomeSpiderMysqlIncre---Mysql实现增量爬虫
docekr-compose的MySQL yaml文件version: '3'services: mysql: image: 'mysql/mysql-server:5.7' restart: always container_name: mysql environment: MYSQL_ROOT_PASSWORD: 123456 command: --default-authentication-plugin=mysql_native原创 2022-02-18 10:56:05 · 894 阅读 · 0 评论 -
python爬虫-2.01CarHomeSpider---两级页面抓取之异常处理
代码展示#!/usr/bin/env python3.8.8# -*- encoding: utf-8 -*-'''@File : test.py@Time : 2022/02/15 08:19:32@Author : 热气球@Version : 1.0@Contact : 17695691664@163.com'''# C:/Users/shiya.liu/AppData/Local/Programs/Python/Python38/python.e原创 2022-02-15 09:04:30 · 443 阅读 · 3 评论 -
python爬虫-2.01CarHomeSpider---两级页面抓取
代码示例""""""汽车之家数据抓取-两级页面爬取目标:车的型号、形势里程、上牌时间、挡位、排量、车辆所在地第一页:https://www.che168.com/china/a0_0msdgscncgpi1ltocsp1exx0/?pvareaid=102179#currengpostion第二页:https://www.che168.com/china/a0_0msdgscncgpi1ltocsp2exx0/?pvareaid=102179#currengpostion第三页:https:/原创 2022-02-14 22:21:03 · 716 阅读 · 0 评论 -
python爬虫-1.08MaoyanSpiderFilmAddress---持久化存储到MongoDB
docker方式运行MongoDBdocker run -itd --name mongo -p 27017:27017 mongodocker exec -it mongo mongoMongoDB数据库基础知识MongoDB为非关系性数据库,数据以键值对方式存储MongoDB基于磁盘存储MongoDB数据类型单一,值为JSON文档,而Redis基于内存MongoDB:库->集合->文档Mysql: 库->表->表记录MongoD基础语法#查看所有库sho原创 2022-02-13 22:50:34 · 922 阅读 · 0 评论 -
Python之OptionParser模块使用
Python——OptionParser模块官网link:https://docs.python.org/3/library/optparse.html文章目录介绍基本用法参数选项OptionParser()parser.add_option()生成帮助错误提示代码示例介绍OptionParser是一个更方便、更灵活、更强大的用于解析命令行选项的库,使用更具声明性的命令行分析样式:创建 OptionParser ,用选项填充它,并解析命令行。 optparse 允许用户以常规GNU/POSIX语原创 2022-02-08 23:22:08 · 1588 阅读 · 0 评论 -
python爬虫-1.06-MaoyanSpider
"""猫眼电影TOP100抓取"""from urllib import requestimport randomimport timeimport reclass MaoyanSpider: def __init__(self): self.url = 'https://maoyan.com/board/4?offset={}' self.headers = { 'User-Agent': 'Mozilla/5.0 (Wind原创 2021-08-02 12:00:20 · 495 阅读 · 0 评论 -
python-1.05re正则模块
re模块使用流程#使用方法一r_list = re.findall('正则表达式',html,re.S)#使用方法二pattern = re.compile('正则表达式',re.S)r_list = pattern.findall(html)注意1:使用findall()方法得到的结果一定为列表注意2:re.S作用为使正则表达式元字符.可匹配\n在内的所有字符示例'''re模块正则表达式的使用'''import re#写一个里面r_list = re.findall('A原创 2021-08-01 16:03:23 · 155 阅读 · 0 评论 -
python爬虫-1.04实战爬取某贴吧
"""抓取指定贴吧的指定页的数据,保存到本地"""from urllib import request,parseimport randomimport timeclass BaiduTiebaSpider: def __init__(self): "定义常用的变量" self.url = 'https://tieba.baidu.com/f?kw={}&ie=utf-8&pn={}' self.headers = {原创 2021-07-31 23:02:31 · 235 阅读 · 0 评论 -
python爬虫-1.03urllib.parse编码模块
urllib.parse编码模块作用:给URL地址中查询参数进行编码导入方式import urllib.parsefrom urllib import parse示例:编码前 https://www.baidu.com/s?wd=赵丽颖编码后 https://www.baidu.com/s?wd=%E8%B5%B5%E4%B8%BD%E9%A2%9urllib.parse模块中的方法urlencode()方法作用:给URL地址中查询参数进行编码,参数类型为字典应用场景:搜索的关键字为原创 2021-07-31 21:42:52 · 345 阅读 · 0 评论 -
python爬虫-1.02urllib.request原理及使用
请求模块–rullib.request程序导入方式:-- import urllib.request-- from urllib import request作用像网站发请求,模仿我们平时在浏览器输入地址访问网站一样**urllib.request.urlopen()方法****urlopen()**作用:像网站发起请求并获取响应对象**参数**URL:需要爬取的URL地址timeout:设置等待超时时间,指定时间内未响应,抛出超时异常"""向百度发起请求,并获取百度的响应原创 2021-07-30 22:19:30 · 200 阅读 · 0 评论 -
python爬虫-1.01summary
什么是网络爬虫网络蜘蛛、网络机器人、抓取网络数据的程序其实就是用python程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好爬虫有风险,代码需谨慎!爬虫被请去喝茶的实例爬虫的目的1、获取大量数据,用来做数据分析2、作为公司项目的测试数据3、公司业务所需数据企业获取数据的方式1、公司自有数据(大厂居多)2、第三方数据平台购买(数据堂、贵阳大数据交易所)3、爬虫爬取数据爬虫语言python:请求、解析模块丰富成熟,强大的scrapy网络爬虫框架PHP:对多线程、异步支持不太好(原创 2021-07-30 21:27:18 · 164 阅读 · 0 评论 -
python爬虫-1.07-MaoyanSpider---持久化存MySQL储
docekr-compose的MySQL yaml文件version: '3'services: mysql: image: 'mysql/mysql-server:5.7' restart: always container_name: mysql environment: MYSQL_ROOT_PASSWORD: 123456 command: --default-authentication-plugin=mysql_native原创 2021-10-07 19:27:17 · 304 阅读 · 0 评论 -
python3 计算1到100的和 for循环
首先定义一个 用于计数的变量number和一个作为循环条件的变量none(默认为真。),然后编写while循环语句,在循环体中,将变量number的值加1,并且判断number的值是否符合条件,当符合条件是将变量none设置为假,从而推出循环。 print("计算1+2+3+...+100的结果:") result=0 for i in range(101): ...原创 2019-07-26 20:28:10 · 32707 阅读 · 0 评论 -
pycharm背景换成图片
pychrom主题背景图片怎么换?你找对地方了。先放一个效果图:搞起来:1.打开pychrom,找到file2.进入file后进入settings就会来到下面3.点击图中标红的地方就会出现左边的框进行设置图片。4.标红的地方就是图片的设置位置,我一般是用本地图片下面是效果图,预览用的。5.最后一步点击ok,大功告成。将我用背景图片放在这里了,用喜欢的拿去。...原创 2019-09-22 09:08:46 · 4924 阅读 · 13 评论