生年不满百，常怀千岁忧-CSDN博客

原创 visual studio 2022 C++遇到的问题

实在是奇了怪了，为什么会有这么多的莫名其妙的错误呢？比如这个错误：我看了，明明有括号匹配的啊，怎么还是报错呢？？？

2021-12-06 19:45:27 886

原创 Google Chrome中的URL问题

打开Google Chrome浏览器，手动输入网址：https://www.movie.douban.com竟然进不去！手动输入https://www.douban.com可以进去再点击电影标签同样的URL，为啥手动输入进不去呢？

2021-11-28 15:17:52 419 1

# coding:utf-8# coding:unicode_escapeimport reimport codecs# 在打开一个文件读取的时候，再同时打开一个文件来写入。# 通过反斜杠来对过长的代码行进行拆分，# 但要注意在\后面不要有任何字符，包括空格。with codecs.open("movies.txt", "r", encoding="utf-8") as f, \ codecs.open("data.txt", "w", encoding="utf-8") a

2021-11-27 20:17:18 240

原创 python 爬虫抓取动态页面

前面写的爬虫都是针对手动翻页的现实中往往有很对网页通过滚轮自动加载出更多的数据如何获取这种网页的全部数据呢？例如：豆瓣电影分类排行榜 - 喜剧片首先，动态加载网页的效果一般都是通过Javascript来实现的。HTTP请求的资源中有一个分类是XHR，它通常用来加载Javascript需要的数据。打开开发者工具，点击“网络”——“XHR”向下滚动网页，会发现资源列表会逐步增加一项内容。网页的数据就是通过浏览器运行这些Javascript代码后加载出来的。网页中的XHR请求，通常会返回一个JS

2021-11-27 16:09:43 1372

原创 python爬虫获取豆瓣TOP250电影的详细信息

# encoding:utf-8# encoding:unicode_escapeimport timeimport codecsimport requestsimport lxml.htmlwith codecs.open("movies.txt", "w", "utf-8") as f: myheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, l

2021-11-26 21:23:56 861

原创 python爬虫获取豆瓣TOP25电影名称和评分

import requestsimport lxml.htmlmyheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36"} # 获取豆瓣电影Top250的网页，# 并转换了可使用XPath分析的对象http_response = requests.get('https:/

2021-11-26 21:01:26 1550

原创 Python爬虫实例遇到的问题及解决方法

import requests import lxml.html myheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36"} # 获取豆瓣电影首页 http_response = requests.get('https://movie.douban.com', he

2021-11-26 20:31:26 782

转载 UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xbb in position 38: invalid start byte

UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xbb in position 38: invalid start bytePython 编码中最常见同时也是最顽固的两个错误：UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-1: ordinal not in range(128)UnicodeDecodeError: ‘utf-8’ codec ca

2021-11-26 20:26:54 419

原创 visual studio 2022 python 爬虫程序遇到的问题

这里写自定义目录标题网络爬虫代码开始调试后如图：网络爬虫代码# 编写第一个网络爬虫from urllib3 import *from re import *http = PoolManager()disable_warnings()def download(url): result = http.request('GET', url) htmlStr = result.data.decode('utf-8') return htmlStrdef analyse(ht

2021-11-24 22:05:15 761

qq_45623158的博客