Hitomi___-CSDN博客

原创 Python requests 爬取登陆后古诗文网

# -*- coding: utf-8 -*-# @Author : HitoChen# @Time : 2021/11/11 2:34 下午# @Function:import requestsfrom bs4 import BeautifulSoupclass login(): def __init__(self): self.url = 'https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2.

2021-11-11 15:19:37 1046

原创 Python xpath 获取xxxx网站大海图片（笔记）

# -*- coding: utf-8 -*-# @Author : HitoChen# @Time : 2021/10/18 12:08 下午# @Function:import urllib.requestimport sslimport timefrom lxml import etreeclass xpath_sea(): def create_ssl(self): ssl._create_default_https_context = ssl._c.

2021-10-19 11:29:29 5248

原创 Python爬虫 xpath，jsonpath，Beautifulsoup 基础（笔记）

1.xpath使用xpath使用：注意：提前安装xpath插件（1）打开chrome浏览器（2）点击右上角小圆点（3）更多工具（4）扩展程序（5）拖拽xpath插件到扩展程序中（6）如果crx文件失效，需要将后缀修改zip （7）再次拖拽（8）关闭浏览器重新打开（9）ctrl + shi...

2021-10-11 19:34:32 335

原创 Python 爬虫之代理服务器

代理的常用功能1.突破自身IP访问限制，访问国外站点。 2.访问一些单位或团体内部资源扩展：某大学FTP(前提是该代理地址在该资源的允许访问范围之内)，使用教育网内地址段免费代理服务器，就可以用于对教育网开放的各类FTP下载上传，以及各类资料查询共享等服务。 3.提高访问速度扩展：通常代理服务器都设置一个较大的硬盘缓冲区，当有外界的信息通过时，同时也将其保存到缓冲区中，当其他用户再访问相同的信息时，则直接由缓冲区中取出...

2021-09-28 14:26:03 977

原创 Ajax post 请求

爬取KFC官网北京店铺信息# -*- coding: utf-8 -*-# @Author : HitoChen# @Time : 2021/9/23 11:27 上午# @Function:import urllibimport urllib.parseimport urllib.requestdef creat_request(page): base_url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.as

2021-09-28 14:21:55 147

原创 Ajax 的 get 请求

爬取豆瓣电影前十页数据# -*- coding: utf-8 -*-# @Author : HitoChen# @Time : 2021/9/22 6:52 下午# @Function:import urllib.requestimport urllib.parseimport sslimport jsonssl._create_default_https_context = ssl._create_unverified_contextdef creat_request(

2021-09-28 14:19:28 228 1

原创 Python Urllib爬虫基础（个人学习笔记仅限参考）

1.什么是互联网爬虫如果我们把互联网比作一张大的蜘蛛网，那一台计算机上的数据便是蜘蛛网上的一个猎物，而爬虫程序就是一只小蜘蛛，沿着蜘蛛网抓取自己想要的数据解释1：通过一个程序，根据Url(http://www.taobao.com)进行爬取网页，获取有用信息解释2：使用程序模拟浏览器，去向服务器发送请求，获取响应信息 2.爬虫核心1.爬取网页：爬取整个网页包含了网页中所有得内容 2.解析数据：将网页中你得到的数据进行解析 3.难点：爬虫和反爬虫之间的...

2021-09-28 11:58:56 715 2

原创 Mac pycharm 如何安装中文插件

中文汉化包JetBrains 系列大部分在官方的插件中心直接安装使用了。以 WebStrom 为例，打开它的设置，点击 Plugins，搜索 chinese，安装重启即可。

2021-09-28 11:23:46 1114 1

Hitomi___的博客