- 博客(100)
- 资源 (5)
- 问答 (1)
- 收藏
- 关注
原创 TypeError: Request url must be str or unicode, got Selector
使用scrapy进行爬虫时出现如下报错:TypeError: Request url must be str or unicode, got Selector的解决方法
2023-04-13 22:26:21 532 1
原创 刷题随记2
sorted和sort的区别:(1)sort函数没有返回值,会改变原元素的值;sorted函数有返回值,不会改变原元素的值。(2)sort()一般作用于列表;sorted()作用于任意可迭代的对象。(3)sort使用方法为ls.sort(),而sorted使用方法为sorted(ls)。
2022-12-20 19:30:44 612
原创 刷题知识点随记
VLOOKUP的使用方法VLOOKUP(要查找的值,查找的区域,查找区域返回的列,查找模式)第4个参数,查找模式:0表示精确匹配,1表示模糊匹配比如查询当前用户id的性别:VLOOKUP(用户id,A2:C6,性别,1)
2022-07-18 11:42:46 419
原创 使用pytesseract库进行图片文字识别报错
pytesseract.pytesseract.TesseractError: (1, 'Error opening data file D:\\pycharm2019\\tesseract-ocr/chi_sim.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'chi_sim\' Tesse
2022-06-12 16:04:34 2425
原创 使用py2neo创建知识图谱报错The following settings are not supported:{‘http_port‘:7474}
The following settings are not supported:{'http_port':7474}
2022-05-01 22:21:49 3502 3
原创 pycharm安装pytesseract,进行图片文字识别
今天使用pytesseract包进行自动化验证登录时,对pytesseract进行下载,其中出现了很多的问题,我直接先使用命令:pip install pytesseract进行下载,下载成功然后测试看看能不能识别出图片中的文字,然后报错查阅了资料发现还要安装pillow和Tesseract-OCR下载Tesseract-OCR链接:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe然后一路默
2022-04-17 17:36:23 2088
原创 neobolt.exceptions.ServiceUnavailable: Failed to establish connection to (‘某主机ip‘, 7687)
neobolt.exceptions.ServiceUnavailable: Failed to establish connection to ('某主机ip', 7687) (reason [WinError 10061] 由于目标计算机积极拒绝,无法连接。)
2022-03-24 22:25:50 3666 2
原创 Mysql编程基础与触发器
一、Mysql编程基础1.标识符以“@”开头的标识符表示一个局部变量或是一个函数的参数以“@@”开头的标识符表示一个全局变量。2.注释单行注释:#开始事务多行注释:/*不能从数据库中删除拥有安全对象的用户 */3.常量与变量常量也称为文字值或标量值,是指程序运行中值始终不改的量。变量就是在程序执行过程中,其值是可以改变的量。在MySQL系统中,存在两种类型的变量:一种是系统定义和维护的全局变量;另一种是局部变量。1)系统全局变量系统全局变量是MySQL系统提供并赋值的变量。全局变量以
2022-03-15 22:41:45 1390
原创 数据库学习之视图管理
一、视图的特点虚表,是从一个或几个基本表(或视图)导出的表,既重新创建的表+查询语句,其实也是看得见的表。即存放视图的定义,也存放视图对应的数据基本表中的数据发生变化,从视图中查询出的数据也随之改变二、创建视图1、语句格式:CREATE VIEW <视图名> [(<列名> [,<列名>]…)]AS <子查询>[WITH CHECK OPTION];WITH CHECK OPTION是对视图进行UPDATE,INSE
2022-02-23 15:47:47 1536
原创 python将dict数据写入json文件中
现在获取一个医药网站的数据,最终转换成dict类型,需要将数据写入JSON文件中,以方便后面数据的使用with open('./medical.json', 'w',encoding='utf-8') as fp: json.dump(data, fp)但得到的最终数据却是这样:本来应该是正常的中文字符串,却是ASCII编码,因此在dump方法中添加一个ensure_ascii参数,原因是dump()方法将字典转化为字符串,会默认将其中unicode码以ascii编码的方式输入到字符串中w
2022-01-18 10:49:05 3632
原创 DeprecationWarning: use options instead of chrome_options driver = webdriver.Chrome(path, chrome_o
使用selenium进行获取一些数据时,运行时一直报警告:‘DeprecationWarning: use options instead of chrome_options driver = webdriver.Chrome(path, chrome_options=option)’虽然不是个错误,但还是解决一下,可能是参数进行了替换吧,将chrome_options变成options就行了...
2022-01-06 09:15:05 2719
原创 1054, “Unknown column ‘pname‘ in ‘field list‘“
1054, "Unknown column 'pname' in 'field list'"
2021-12-30 22:36:49 555
原创 not all arguments converted during string formatting
在使用python将获取的数据存入mysql中时,一直报错后来发现是自己写sql的插入数据语句出现了问题,前面的需要的参数数量和后面%s格式化数量不一致,只需要写一致就可以啦
2021-12-29 09:36:59 1379
原创 TypeError: can only concatenate str (not “module“) to str
在使用python进行数据爬取时,直接将需要的字段进行合并,然鹅出现了以下的错误因为只能连接str到str,所以将字段类型转换成str类型就行了
2021-12-25 20:34:08 1516
原创 python爬虫报错‘gbk‘ codec can‘t encode character ‘\u202c‘ in position 1: illegal multibyte sequence
最近在网上爬取一些自己毕业设计需要用的数据,但是一直报这样的错误:主要是将爬取的数据写入到新的文件中,我们需要指定新文件的编码格式,因此将保存内容文件的代码修改如下:def save(item, path): # path文件保存路径,item数据列表 with open(path, "w+", newline='',encoding='utf-8') as f: write = csv.writer(f) write.writerows(item)OK
2021-12-17 21:04:48 1381 4
原创 InvalidSessionIdException: Message: invalid session id
在使用selenium进行自动获取信息时,报错:InvalidSessionIdException: Message: invalid session id因为我需要获取多个页面的数据,让他自动进入下一页获取信息,但是我却在让他在第一页完了后就关闭了,因此会报错去掉关闭就行了...
2021-12-10 19:36:32 2745
原创 如何使用python快速读取tsv文件
import pandas as pddata = pd.read_csv('products.tsv', sep='\t')data如果对tsv文件不太习惯,可以将读取了的文件保存为csv格式data.to_csv('test.csv')
2021-11-22 15:10:24 5782
原创 常用的Linux操作命令
1.切换到目录 /usr/local/testcd /usr/local/test2.返回到当前目录的上级目录cd ..3.返回到主文件夹cd ~4.查看当前目录下所有的文件ls -al5.在a目录下创建一个名为test的目录mkdir为创建新目录cd amkdir test6.创建目录 test1/test2/test3-p代表递归创建mkdir -p test1/test2/test37.删除a目录下的test目录删除rmdir test8.删除test
2021-11-17 15:32:43 2498
原创 URL中某些字符代表的含义
字符含义十六进制+URL中+号表示空格%2B空格URL中的空格可以用+号或者编码表示%20/分割目录和子目录%2F?分隔实际的URL和参数%3F、%指定特殊字符%25#表示书签%23&URL中指定的参数间的分隔符%26=URL中指定参数的值%3D...
2021-11-16 14:50:22 1630
原创 如何在scrapy框架里进行调试嘞
今天在使用scrapy框架写爬虫代码时,运行爬虫文件后既不输出内容也不报错,然后就试着调试一下:scrapy.cfg的同级目录下创建main.py,里面写如下代码#调试from scrapy import cmdlinecmdline.execute('scrapy crawl foodKnowledge'.split())#foodKnowledge代表爬虫文件名在爬虫文件你想调试的地方打上断点,回到main.py文件,右键点击调试,则可以了...
2021-10-31 00:09:54 811 1
原创 计算机网络学习之应用层
一、应用层概述1.基本功能网络应用程序:负责提供人机交互的界面,或创建/接收消息的方法。网络应用服务:负责创建与网络交互的接口:按照协议为网络准备数据、交换数据。网络应用协议:负责为网络应用程序间的数据交互提供规则和格式。2. TCP/IP应用层二、DNS服务DNS服务提供了域名与IP地址之间的相互映射服务,目的是方便用户访问网络资源。DNS系统的组成域:由地理位置或业务类型而联系在一起的一组计算机所构成的集合;域名:给每个“域”提供的一个由字符和数字组成的名称;域名空间:DN.
2021-10-24 21:42:15 230
原创 TypeError: __init__() takes 1 positional argument but 5 positional arguments (and 1 keyword-only arg
使用python代码想将Excel表格里的数据直接存入数据时,却在连接数据库时报出这样的错误:TypeError: __ init __() takes 1 positional argument but 5 positional arguments (and 1 keyword-only argument) were given不知道是为啥吧,我把参数名加上,然后就得行了db = pymysql.connect( host='localhost', user='roo
2021-10-13 08:52:11 1585 2
原创 计算机网络学习之运输层
一、OSI运输层概述1.运输层的作用和地位运输层负责区分网络层接收的分组数据,并将之交付给正确的进程,实现端到端的进程通信!网络层所提供的是从源主机到目标主机的数据通信–端到端的主机通信。2.运输层的基本功能网络进程通信:进程识别(五元组)源端:源主机地址+源进程标识目标端:目标主机地址+目标进程标识传输层协议可靠的数据传输:面向连接的传输服务(如TCP)差错控制流量控制数据分段与复用:对超过网络层最大数据载荷的上层协议数据进行分段和合并处理;针对面向连接的服务提供多
2021-10-08 15:27:41 271
原创 使用scrapy爬取豆瓣电影top 250
首先是创建我们的项目,在终端输入以下命令scrapy startproject doubanmovie#doubanmovie为所创建项目名然后得到下面的目录结构创建爬虫文件:首先进入到创建爬虫项目目录下cd doubanMoviescrapy genspider douban douban.com...
2021-10-06 14:26:50 898
原创 如何快速取JSON里的值
import jsoncomments = requests.get('http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-fyfzhac1650783')comments.encoding = 'utf-8'print(comments)jd = json.loads(comments.text.strip('var data=')) #移除改var d
2021-10-06 11:38:34 1918
原创 如何将爬取的数据存入数据库中
这里我就将自己前面爬取的豆瓣电影top 250的数据存入数据库中吧,爬数据的代码我就不再写了,如果有需要可以参考我这篇文章
2021-10-05 21:13:17 4436 2
原创 scrapy爬虫时遇到这个问题:ValueError: Missing scheme in request url
看了下自己的网址,发现原来是url不完整,那我就直接在前面的补充完整item[‘url’]=“https:www.***.com/”+row.xpath(‘a/@href’).get()
2021-10-05 14:44:32 334
原创 使用scrapy框架爬取最好大学排名
爬取链接:https://www.shanghairanking.cn/rankings/bcur/2021这里偷个懒,直接在之前创建好的项目文件里创建爬虫文件,创建命令“scrapy genspider daxue daxue.com”,创建了daxue.py文件如果不知道如何创建项目文件的话,可以参考这篇文章Scrapy爬虫框架爬虫文件的代码如下:import scrapyfrom baiduSpider.items import BaiduspiderItemclass DaxueSp
2021-10-03 13:46:36 527 1
原创 Scrapy爬虫框架
一、Scrapy安装1、命令行安装可以直接在命令行输入以下命令pip install scrapy由于 pip 安装会自动安装 scrapy 爬虫框架依赖的各种包,安装速度较慢,出错概率较 大,建议增加-i 参数,使用清华镜像安装。pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple/安装成功后在命令行输入scrapy,出现下图中的提示则代表Scrapy安装成功了2.Pycharm下安装打开pycharm,在菜单.
2021-10-02 14:27:46 643
原创 计算机网络学习之网络层
一、网络层功能概述1.网络层的基本功能网络层主要向运输层提供透明的端到端分组传输服务。2.网络层提供的服务(1)可靠的面向连接服务基本概念:在数据传输之前双方需要为此建立连接,然后在该连接上实现有次序的分组传输,直到数据传送完毕才释放连接。实现方式:虚电路,包括虚电路建立、数据传输和虚电路拆除。基本特点:分组无需完整的源目地址,只需虚电路标识;使用虚电路连接表而非路由表,无需路由;传输无乱序、重复或丢失,但经过故障点的虚电路会失败。(2)不可靠的无连接服务基本概念:数据传输前无
2021-10-01 23:00:59 2564
原创 计算机网络学习之局域网技术
一、局域网概述1.基本特点地理覆盖范围小:通常不超过几十公里,甚至只在一幢建筑或一个房间内数据的传输速率高:最高可达100Gbit/s。通信质量高:误码率在10-11~10-8支持多种传输介质:同轴电缆、双绞线、光纤、无线介质成本低、安装、扩充及维护方便:通常属于某个部门、企业或单位所有2.基本功能资源共享数据通信、数据交换和分布式处理常见应用:办公自动化、生产自动化、管理信息化、银行业务处理、军事指挥控制、商务管理3.常见拓扑决定局域网特性的主要技术因素有以下三个:网络拓扑结构:
2021-09-25 21:03:11 1537
原创 Selenium的使用
一、Selenium的安装1.Selenium模块安装输入以下命令pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple/2.浏览器驱动的下载安装在下载浏览器驱动时,要看好浏览器的版本,浏览器不同,则驱动程序也就不同,这里我就拿我常用的Google Chrome举例吧,打开设置,然后点击关于Chrome,就可以看到自己的版本为多少了下载跟版本差不多的驱动,圈起来的这两个都可下载下载链接:下载Chrome驱动下载完后
2021-09-21 15:57:40 225
原创 SciPy科学计算
一、SciPy中的常数与特殊函数1.SciPy的constants模块from scipy import constants as Cprint("圆周率:",C.pi) #圆周率print("黄金比例:",C.golden) #黄金比例print("真空中的光速:",C.c) #真空中的光速print("普朗克常数:",C.h) #普朗克常数print("一英里等于多少米:",C.mile) #一英里等于多少米print("一英寸等于多少米:",C.inch) #
2021-09-21 12:20:31 679 1
原创 动态网页爬虫
动态网页的爬取相比静态网页来说困难一些,主要由于很多网站采用Ajax和动态Html相关技术进行页面交互,导致使用request或urlib是无法获取完整的页面html 内容。下面主要介绍两种抓取动态网页的方法,基本上都是有利有弊。逆向分析法,使用浏览器开发者工具分析爬取数据的来源,有时需要理解JavaScript脚本,需要一定的分析能力和综合能力。Selenium,自动化测试框架,可以获取加载后的页面html,需要专门学习。一、Ajax和动态HtmlAjax 的全称是Asynchronous
2021-09-20 22:15:56 1446 3
py2neo下载出现的问题
2021-07-11
TA创建的收藏夹 TA关注的收藏夹
TA关注的人