自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Python requests 爬取登陆后古诗文网

# -*- coding: utf-8 -*-# @Author : HitoChen# @Time : 2021/11/11 2:34 下午# @Function:import requestsfrom bs4 import BeautifulSoupclass login(): def __init__(self): self.url = 'https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2.

2021-11-11 15:19:37 896

原创 Python xpath 获取xxxx网站大海图片(笔记)

# -*- coding: utf-8 -*-# @Author : HitoChen# @Time : 2021/10/18 12:08 下午# @Function:import urllib.requestimport sslimport timefrom lxml import etreeclass xpath_sea(): def create_ssl(self): ssl._create_default_https_context = ssl._c.

2021-10-19 11:29:29 3909

原创 Python爬虫 xpath,jsonpath,Beautifulsoup 基础(笔记)

1.xpath使用xpath使用: 注意:提前安装xpath插件 (1)打开chrome浏览器 (2)点击右上角小圆点 (3)更多工具 (4)扩展程序 (5)拖拽xpath插件到扩展程序中 (6)如果crx文件失效,需要将后缀修改zip (7)再次拖拽 (8)关闭浏览器重新打开 (9)ctrl + shi...

2021-10-11 19:34:32 245

原创 Python 爬虫之代理服务器

代理的常用功能1.突破自身IP访问限制,访问国外站点。 2.访问一些单位或团体内部资源 扩展:某大学FTP(前提是该代理地址在该资源的允许访问范围之内),使用教育网内地址段免费代理服务器,就可以用于对教育网开放的各类FTP下载上传,以及各类资料查询共享等服务。 3.提高访问速度 扩展:通常代理服务器都设置一个较大的硬盘缓冲区,当有外界的信息通过时,同时也将其保存到缓冲区中,当其他用户再访问相同的信息时, 则直接由缓冲区中取出...

2021-09-28 14:26:03 829

原创 Ajax post 请求

爬取KFC官网北京店铺信息# -*- coding: utf-8 -*-# @Author : HitoChen# @Time : 2021/9/23 11:27 上午# @Function:import urllibimport urllib.parseimport urllib.requestdef creat_request(page): base_url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.as

2021-09-28 14:21:55 92

原创 Ajax 的 get 请求

爬取豆瓣电影前十页数据# -*- coding: utf-8 -*-# @Author : HitoChen# @Time : 2021/9/22 6:52 下午# @Function:import urllib.requestimport urllib.parseimport sslimport jsonssl._create_default_https_context = ssl._create_unverified_contextdef creat_request(

2021-09-28 14:19:28 146 1

原创 Python Urllib爬虫基础 (个人学习笔记仅限参考)

1.什么是互联网爬虫如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小 蜘蛛,沿着蜘蛛网抓取自己想要的数据解释1:通过一个程序,根据Url(http://www.taobao.com)进行爬取网页,获取有用信息 解释2:使用程序模拟浏览器,去向服务器发送请求,获取响应信息 2.爬虫核心1.爬取网页:爬取整个网页 包含了网页中所有得内容 2.解析数据:将网页中你得到的数据 进行解析 3.难点:爬虫和反爬虫之间的...

2021-09-28 11:58:56 552 2

原创 Mac pycharm 如何安装中文插件

中文汉化包JetBrains 系列大部分在官方的插件中心直接安装使用了。以 WebStrom 为例,打开它的设置,点击 Plugins,搜索 chinese,安装重启即可。

2021-09-28 11:23:46 853 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除