爬虫小韩-CSDN博客

原创 re模块之豆瓣电影排行榜

import requestsimport reimport csvurl = "https://movie.douban.com/top250"headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36"}resp = requests.get(url,hea

2022-05-04 17:38:08 181

原创 python爬虫之xpath模块

#拿到页面源代码#提取和解析数据import requestsfrom lxml import etreeurl = "https://beijing.zbj.com/search/f/?kw=saas"resp = requests.get(url)resp.close()# print(resp.text)#解析html = etree.HTML(resp.text)#拿到每一个服务商的divdivs = html.xpath("/html/body/div[6]/div/d

2022-05-04 17:37:17 892

原创 BS模块之抓取优美图库

#1.拿到主页面的源代码，然后提取到子页面的链接地址，href#2.通过href拿到子页面的内容，从子页面中找到图片的下载地址 img-> src#3.下载图片import requestsfrom bs4 import BeautifulSoupimport timeurl = "https://umei.cc/bizhitupian/weimeibizhi/"resp = requests.get(url)resp.encoding = 'utf-8'resp.close()

2022-05-04 17:25:07 162

原创 python爬虫之BeatifulSoup

#安装#pip install bs4#1.拿到页面源代码#2.使用bs4进行解析，拿到数据import requestsfrom bs4 import BeautifulSoupimport csvimport reurl = "http://www.xinfadi.com.cn/getPriceData.html"resp = requests.get(url)resp.close()# print(resp.text)f = open("菜价.csv", mode="w"

2022-05-04 17:24:25 405

原创 python爬虫之re模块

import re#findall：匹配字符串中所有符合正则的内容# lst = re.findall(r"\d+","我的电话号码是：10086,我女朋友的电话是10010")# print(lst)#finditer：匹配字符串中所有的内容【返回的是迭代器】,从迭代器中拿到内容需要.group()# it = re.finditer(r"\d+","我的电话号码是：10086,我女朋友的电话是10010")# # print(it)# for i in it:# # prin

2022-05-04 17:22:39 593

原创 web请求过程刨析

# 1.服务器渲染：在服务器那边直接把数据和html整合在一起，统一返回给浏览器# 在页面源代码中能看到数据# 2.客户端渲染：# 第一次请求只要一个html骨架，第二次请求拿到数据，进行数据展示# 在页面源代码中，看不到数据# ...

2022-05-04 17:21:09 173

原创 requests入门03

import requests# url = "https://www.sogou.com/web?query=周杰伦"# query = input("请输入一个你喜欢的明星")url = "https://movie.douban.com/j/chart/top_list"dic = { "type": "24", "interval_id": "100:90", "action":"", "start": "0", "limit": "20"}h

2022-05-04 17:20:11 141

原创 requests入门02

import requests# url = "https://www.sogou.com/web?query=周杰伦"# query = input("请输入一个你要翻译的话")url = "https://fanyi.baidu.com/sug"s = input("请输入一个你要翻译的话")dat = { "kw": s}#发送post请求，发送的数据必须放在字典中，通过data参数进行传递resp = requests.post(url,data=dat) #处理一个小小的

2022-05-04 17:19:32 37

原创 requests入门

import requests# url = "https://www.sogou.com/web?query=周杰伦"query = input("请输入一个你喜欢的明星")url = f"https://www.sogou.com/web?query={query}"dic = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/

2022-05-04 17:18:58 41

原创【无标题】

import stringimport requestsfrom urllib import request, errorimport timefrom bs4 import BeautifulSoupimport osimport chardetimport array as arrfrom lxml import etreeurl = ‘http://ggzyjy.xzfwzx.putian.gov.cn/images/bg.jpg’re = requests.get(url)co

2022-04-12 17:13:19 597

原创 python概细览模型设计

要求：简单来说,代码结构很简单for 概览页数构造概览url和请求参数调用http抓取函数调用概览解析处理得到细览列表for 细览信息进行细览抓取进行细览解析得到最终结果,记录到[]return [最终结果]然后,翻页函数,就是构造请求url或head或body可以是这样的:def make_pageno(pageidx,head_dict):返回值(url,body,错误消息)1 概览循环就是构造翻页请求,抓取概览页面,解析得到细览列表2 在概览循环的内部得到细览列表后,就地

2022-04-11 20:17:21 368

原创求助：python爬虫如何对xpath提取过程进行预防的异常处理

项目场景：`要求爬取一个网站的部分数据，用的xpath，但老板要求加入xpath的异常处理，这块属实是难倒孩子了，有没有路过的大佬救命！问题描述这是我的代码，怎么对xpath进行异常处理啊大佬们import requestsfrom lxml import etreeimport osimport jsonimport csvfrom bs4 import BeautifulSoupurl = "http://ggzyjy.xzfwzx.putian.gov.cn/ptsq/005

2022-04-01 11:48:51 1407

原创 JavaEE第一次作业

1、完成例题1.3spring入门程序（1）UserDao 接口类：package edu.javaee.spring;public interface UserDao {public void say();}（2）UserDaoimpl接口实现类：package edu.javaee.spring;public class UserDaoimpl implements UserD...

2020-03-03 15:39:56 79

hanqianglj的博客