自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

_天涯__的博客

思维没有边界

  • 博客(78)
  • 资源 (12)
  • 收藏
  • 关注

原创 基于yolov5算法的深度学习物体识别系统(一) -- 数据集原图获取与标注

从本篇博客正式开始深度学习项目的记录,由于未可知的保密性,实例代码只会放通用的代码,数据集和训练数据也是不会全部放出。想要让人工智能有智能,得先训练它,训练要有数据集,制作数据集要有原始数据。所以搭建系统的第一步,就是从网上爬一些图片来构建数据集,为什么是爬虫爬取呢,因为太多了,手动下载根本不现实。写个爬虫在百度谷歌爬取图片,搜索关键字然后下拉界面到底(设置一个超级大的数或者一直下拉),获取所有的图片元素。比如百度图片搜索结果的 <li/>@..

2021-05-22 22:09:37 91 7

原创 力扣题目系列:746. 使用最小花费爬楼梯 -- 一道动态规划入门题

刷题系列博客链接:机试题目目录题目及示例我的题解题目及示例数组的每个索引作为一个阶梯,第i个阶梯对应着一个非负数的体力花费值cost[i](索引从0开始)。每当你爬上一个阶梯你都要花费对应的体力花费值,然后你可以选择继续爬一个阶梯或者爬两个阶梯。您需要找到达到楼层顶部的最低花费。在开始时,你可以选择从索引为 0 或 1 的元素作为初始阶梯。示例1:输入: cost = [10, 15, 20]输出: 15解释: 最低花费是从cost[1]开始,然后走两步...

2020-12-21 22:11:05 53

原创 Python爬虫实践(三) -- 用户全量数据爬取、多媒体信息爬取

本次改进仍在前一篇的基础上进行一些改进,如果单个脚本还不能很好地实现功能,那就换成Python项目结构,正好也学一下Python项目式开发。模拟,加载数据想要爬取动态网站的数据,应该采用selenium库模拟浏览器,打开某个网页加载完全后,再进行处理。所以,想要用selenium实现对某个用户的全部数据(每个帖子的数据)进行爬取,首先得让模拟浏览器看到所有的信息,也就是加载出所有的数据,再进行元素定位和信息保存。之前看到有帖子说,下拉加载是动态的,是需要通过...

2020-08-29 00:04:15 640 1

原创 基于京东家电商品知识图谱的自动问答系统(一) -- Neo4j构建知识图谱

电脑打开京东首页,搜索冰箱、空调、电视机、洗衣机、热水器、电饭煲等常用的家用电器关键词,复制弹出的搜索结果界面的链接。下载安装“八爪鱼”爬虫工具,这是一个通过定义规则自动生成脚本抓取数据的工具,注册免费版即可使用常用功能,也可以用教育邮箱注册一年专业版。可以先学习官方提供的新手入门教程...

2020-03-19 12:56:19 6406 4

原创 Python日志保存 -- print内容输出到txt文件、nohup&时的输出保存

想要将每次爬虫的日志保存一下,查阅资料后,总结两种。一是使用脚本内的代码来保存,二是使用命令行的命令来保存。代码保存代码保存的好处是通用化,但是也不用每次都追加,那样会得到一个超大的文件。几次运行后,可以修改输出文件位置。不修改则是继续在源文件后追加写入。import sys # 需要引入的包# 以下为包装好的 Logger 类的定义class Logger(object): def __init__(self, filename="Default.log"):..

2021-03-05 23:27:08 376 1

原创 Linux与Xshell:登陆服务器与后台执行程序

参考文章:https://blog.csdn.net/qq_23128065/article/details/88257680https://jenrey.blog.csdn.net/article/details/86717859https://www.cnblogs.com/jackadam/p/9814173.htmlhttps://blog.csdn.net/weixin_44485744/article/details/109806272

2021-02-09 18:02:07 97

原创 Selenium爬虫 -- Pyhton进阶:使用cookie登陆某网站

今天下午运行着爬虫就出门了一趟,等回来后发现早就运行完了,仔细一看输出的信息原来是遇到了领英的登录异常检查,需要输入安全验证代码。想想也确实应该被检测到了,每次运行爬虫的时候都是一个新的浏览器,然后重新登陆,几天之内我登录了好多次,正常人应该不会,所以我决定这次学一下cookie登陆。大致思想很简单:先手动在selenium中输入代码登录到个人空间,然后获取页面的cookie保存起来。然后就可以使用这个cookie来登录了,也不会被发现

2021-02-08 19:45:52 97 3

原创 Linux笔记 -- Pyhton虚拟环境&Linux系统基本操作&Vim编辑器基本操作

Linux基本操作:Linux 命令大全 | 菜鸟教程Vim基本操作:Linux vi/vim | 菜鸟教程目录Python虚拟环境virtualenv安装创建激活装包退出Python虚拟环境virtualenv点此查看完整官网介绍安装pip install virtualenv # 在根目录中运行此命令pip3 install virtualenvwrapper # 在根目录中运行此命令创建virtualenv venv_lks # 在根.

2021-01-20 16:30:49 44

原创 Python数据库 -- 查询结果处理、SQL表内数据去重

Python脚本查询数据库及返回结果的处理MySQL表内既有数据的去重思想及SQL语句

2021-01-13 11:59:23 368

原创 力扣题目系列:239. 滑动窗口最大值 -- 困难题打卡(难点在时间限制)

刷题系列博客链接:机试题目目录题目及示例我的题解题目及示例给你一个整数数组 nums,有一个大小为k的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k个数字。滑动窗口每次只向右移动一位。返回滑动窗口中的最大值。示例 1:输入:nums = [1,3,-1,-3,5,3,6,7], k = 3输出:[3,3,5,5,6,7]解释:滑动窗口的位置 最大值--------------- --...

2021-01-12 17:09:33 51

原创 Selenium爬虫 -- 操控滚动条方法

大致分为三种,一是整个网页的滚动条,二是页面中某个div块的滚动条,三是网页的弹出框的滚动条。步骤就是先定位,再拖动,利用js脚本来进行。

2021-01-12 10:03:46 107

原创 Python数据库 -- SQL语句的语法问题(即对于字符串的特殊处理)

有时候用变量存字符串输入数据库,会出现语法错误。检查就可以发现是那个字段的字符串里有单引号或者双引号,这时候就要利用字符串的引号套用。一般爬取的字符串里只会有单引号,于是,把SQL语句改成:sql_insert = 'insert into linkedin_blog(uname,user_name_link,pubtime,content,' \ 'pic_path,video_path,org_user_name,org.

2021-01-11 16:57:34 172

原创 Selenium爬虫 -- 元素点击与定位的稳定方式

爬虫开发中免不了有定位难题和按钮点击拦截,我在本篇文章中总结问题,并给出目前我的解决方案。目录问题一:定位不稳定,时而有时而无问题二:点击按钮无效,被拦截等原因问题三:for循环的定位问题,不能顺利定位下一个大元素中的小元素问题一:定位不稳定,时而有时而无xpath的定位方式确实好用,但是定位字符串的编写也是门技术活。解决方法:绝对路径、相对路径、树形、属性寻找等,这些的示例为:# 树形文本结构寻找,绝对路径,最不稳定articles = browser1.find..

2021-01-11 16:12:51 139

原创 力扣题目系列:605. 种花问题

刷题系列博客链接:机试题目目录题目及示例我的题解题目及示例假设有一个很长的花坛,一部分地块种植了花,另一部分却没有。可是,花不能种植在相邻的地块上,它们会争夺水源,两者都会死去。给你一个整数数组flowerbed 表示花坛,由若干 0 和 1 组成,其中 0 表示没种植花,1 表示种植了花。另有一个数n ,能否在不打破种植规则的情况下种入n朵花?能则返回 true ,不能则返回 false。来源:力扣(LeetCode)链接:https://leetcode-...

2021-01-02 23:03:41 53

原创 力扣题目系列:1299. 将每个元素替换为右侧最大元素 -- 一道算法优化入门题

刷题系列博客链接:机试题目目录题目及示例我的题解题目及示例给你一个数组arr,请你将每个元素用它右边最大的元素替换,如果是最后一个元素,用-1 替换。完成所有替换操作后,请你返回这个数组。示例:输入:arr = [17,18,5,4,6,1]输出:[18,6,6,6,1,-1]提示:1 <= arr.length <= 10^41 <= arr[i] <= 10^5来源:力扣(LeetCode)链接:https://le...

2021-01-01 20:23:47 39

原创 力扣题目系列:290. 单词规律

刷题系列博客链接:机试题目目录题目及示例我的题解题目及示例给定一种规律 pattern和一个字符串str,判断 str 是否遵循相同的规律。这里的遵循指完全匹配,例如,pattern里的每个字母和字符串str中的每个非空单词之间存在着双向连接的对应规律。示例1:输入: pattern = "abba", str = "dog cat cat dog"输出: true示例 2:输入:pattern = "abba", str = "dog ca...

2020-12-20 22:36:49 32

原创 力扣题目系列:204. 计数质数

刷题系列博客链接:机试题目目录题目及示例我的题解题目及示例统计所有小于非负整数n的质数的数量。示例 1:输入:n = 10输出:4解释:小于 10 的质数一共有 4 个, 它们是 2, 3, 5, 7 。示例 2:输入:n = 0输出:0示例 3:输入:n = 1输出:0提示:0 <= n <= 5 * 106来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/count-...

2020-12-17 14:00:11 48

原创 力扣题目系列:860. 柠檬水找零

刷题系列博客链接:机试题目目录题目及示例我的题解题目及示例在柠檬水摊上,每一杯柠檬水的售价为5美元。顾客排队购买你的产品,(按账单 bills 支付的顺序)一次购买一杯。每位顾客只买一杯柠檬水,然后向你付 5 美元、10 美元或 20 美元。你必须给每个顾客正确找零,也就是说净交易是每位顾客向你支付 5 美元。注意,一开始你手头没有任何零钱。如果你能给每位顾客正确找零,返回true,否则返回 false。示例 1:输入:[5,5,5,10,20]...

2020-12-13 15:37:57 21

原创 力扣题目系列:1370. 上升下降字符串

给你一个字符串s,请你根据下面的算法重新构造字符串:从 s中选出 最小的字符,将它 接在结果字符串的后面。从 s剩余字符中选出最小的字符,且该字符比上一个添加的字符大,将它 接在结果字符串后面。重复步骤 2 ,直到你没法从 s中选择字符。从 s中选出 最大的字符,将它 接在结果字符串的后面。从 s剩余字符中选出最大的字符,且该字符比上一个添加的字符小,将它 接在结果字符串后面。重复步骤 5,直到你没法从 s中选择字符。重复步骤 1 到 6 ,直到 ...

2020-11-25 14:35:26 61

原创 自然语言处理 -- NLP作业 2 :序列标注、命名实体识别

命名实体识别Bi-LSTMCRF条件随机场代码

2020-11-12 00:09:27 437 1

原创 Selenium爬虫 -- 用户动态数据爬取

突然在一次熬夜写完代码后,发现自己是真的有点悟了......

2020-11-11 20:14:39 512 2

原创 VS2017离线下载 -- 如何让VS2017不占用C盘

C盘只有128G固态,剩了十几G,快满了,就想把VS2017挪一下位置,结果找了很久,也没遇到能行的教程,还错下了一个不行的资源。最后还是我想起来去班群下载了同学大一时候上传的vs_community.exe文件。下载链接(附bat文件,一键安装)...

2020-11-11 20:08:09 164

原创 自然语言处理 -- NLP作业 1 :训练词向量

目录pytorchnnlm代码pytorchnnlm代码

2020-11-03 12:10:34 574

原创 Python项目开发基础 -- with open (filename) as 读写文件

目录常规读取文件:with open () as 读取文件读取方法区别写文件读取字符编码文件读取二进制文件附录常规读取文件:要以读文件的模式打开一个文件对象,使用Python内置的open()函数,传入文件名和标示符:f = open('E:\python\python\test.txt', 'r')标示符'r'表示读,这样,我们就成功地打开了一个文件。如果文件不存在,open()函数就会抛出一个IOError的错误,并且给出错误码和详细的信息告诉你文件不存

2020-11-03 10:45:46 309

原创 重置电脑的网络配置 -- 解决防火墙问题导致的应用启动失败

10月25日左右,CSGO突然不能启动了,重装游戏,重装steam,都没用。最后选择重置电脑的所有网络配置(当然也包括防火墙)。进入管理员命令行,输入以下命令并执行。netsh advfirewall resetnetsh int ip resetnetsh int ipv6 resetnetsh winsock reset命令执行完成后,重启电脑。游戏成功启动,问题解决!...

2020-10-29 22:02:05 511

原创 爬虫封号解决 -- Win10系统如何修改网卡的物理地址(MAC)

现在各大需要登录状态才能查看信息的网站,比如脸书、领英等,尽管没有明说,但是都会在后台对你的设备进行记录,可能就是通过MAC地址来拉黑某些“恶意用户”的。所以,这篇博客来说一说关于网卡MAC的修改。网卡的信息可以通过电脑管家查看硬件来看,也可以命令行输入【ipconfig /all】来查看,就笔记本来说,一般会有两个物理网卡,一个PCI的主板有线网卡,一个无线网卡连接WLAN的。别的虚拟网卡不要管,那是些虚拟环境之类的软件设置的。

2020-10-24 13:38:33 350

原创 Python项目开发基础 -- 函数参数与数据库连接参数

Python没有main函数。python是一种解释型脚本语言,和C/C++语言不同,C/C++程序从main函数开始执行,python程序从开始到结尾顺序执行。python中的main函数的作用:让模块(函数)可以自己单独执行(调试),相当于构造了调用其它函数的入口,这就类似于C/C++里面的main函数了。Python作为一门较为灵活的解释型脚本语言,其中定义的main()函数只有当该Python脚本直接作为执行程序时才会执行;当

2020-10-14 13:48:33 133

原创 Selenium爬虫 -- 图片视频的src绝对地址链接分析

爬取**的时候,每次爬取图片都要转到mbasic.**网站,这样极容易被检测封号。然后我发现在检查***的元素的时候,图片和视频的链接都藏在了元素的style元素中。思路:定位多媒体元素 -> 获取src属性 -> 截取http网址 -> 对网址进行分析替换 -> 爬取多媒体资源网址中有些反复出现的\3a、\3d、\26等字符串,猜测可能是连接符之类的保密替换。查询资料发现是网址URL中的特殊字符转义编码。对照表:字符 - URL编码值空...

2020-10-12 22:57:11 747

原创 Selenium爬虫 -- WebDriver多标签页创建与切换

多窗口爬取**容易被封号,于是改为多标签页爬取。涉及操作有:新建标签页、切换标签页等。self.browser1 = webdriver.Chrome()self.browser1.get('https://blog.csdn.net/hhr603894090')# 获取当前标签页1的句柄handle = self.browser1.current_window_handleprint('tab1: ' + handle)# 新开一个标签页2self.browser1.execut

2020-10-12 22:27:16 309

原创 Ubuntu系统 -- 初始化配置与基础操作

新配置的工作站是Ubuntu18.04系统,从没用过纯Linux的我,瑟瑟发抖出错不少…目录硬盘挂载Linux文本编辑命令Linux紧急模式Linux挂载硬盘Linux新建文件目录开发环境VSCode下载VSCode插件硬盘挂载  512G的固态被分了一半一半,因为是双系统,所以把另一个2T的机械硬盘分区,分500G给Windows,1.5T给Linux。所以需要挂载1.5T的那个分区到Linux。Linux文本编辑命令Linux紧急模式Linux挂载硬盘Linux新建文件目录开发环境.

2020-10-10 13:34:05 483

原创 机器学习基础 -- 李宏毅2020机器学习课程笔记(一)

想要拥有一些除了课本之外的精通技能,所以先在B站学习一下机器学习的相关基础。课程链接:李宏毅2020机器学习深度学习(完整版)国语-哔哩哔哩另:这篇博客使用的是Markdown编辑器,写一篇试试水(๑•̀ㅂ•́)و✧P1 课程介绍、机器学习介绍

2020-10-10 13:01:54 228

原创 RSA、DSA算法原理与举例

最近在区块链技术与安全这门课上学了三节课的密码学,简直无语了…自然语言处理课上,学了三节多的课的神经网络机器学习…国科大的学科融合太真实了…课程笔记就不写博客了,感觉就算写也会搞成PPT截图或者老师讲话记录那种,没意义目录RSA背景原理互质欧拉数欧几里得算法扩展欧几里得算法例子DSA背景原理例子RSA背景原理互质欧拉数欧几里得算法扩展欧几里得算法例子DSA背景原理例子...

2020-10-10 12:51:35 603 4

原创 Selenium爬虫 -- 无界面爬取:无头模式及其他参数

chrome_options = Options()chrome_options.add_argument('--no-sandbox') #解决DevToolsActivePort文件不存在的报错chrome_options.add_argument('window-size=1920x3000') #指定浏览器分辨率chrome_options.add_argument('--disable-gpu') #谷歌文档提到需要加上这个属性来规避bugchrome_options.add_arg.

2020-10-05 20:07:05 277

原创 如何用Python控制手机 -- appuim安装与使用

想要用连点器控制下手机,但是目前网上可以搜到的连点器都没有判断停止条件的功能,于是决定自己写一个!

2020-09-05 22:00:53 664

原创 Anaconda的安装与基本使用

其实如果不是那么多现有的Python2+的代码,就没多大必要用Anaconda了,因为Python2+将要停止维护了。使用Anaconda就可以简单的解决单个Python环境所带来的麻烦。而Anaconda除了包管理之外,还有丰富的数据分析外部依赖包,是计算科学研究者的必备。

2020-09-02 19:16:12 199

原创 关于命令行启动MySQL服务的相关问题

首先,我的计算机并没有启动MySQL的开机自启,我也不打算设置。所以不想每次都进计算机管理找服务启动,想偷懒写个bat脚本来一键开。先在命令行试试启动命令。mysql start #这个不对哦很明显,这是我不熟悉MySQL的命令,这样不对,哈哈哈,应该是下面这个。net start mysql #这个其实也不大对 hhh但是这个命令也遇到了错误,甚至我换到管理员权限或者bin目录下,都不行。错误: 服务名无效。 请键入 NET HELPMSG 2185 以获得更.

2020-09-01 18:57:52 71

原创 力扣题目系列:474. 一和零

题目及示例在计算机界中,我们总是追求用有限的资源获取最大的收益。现在,假设你分别支配着 m 个0和 n 个1。另外,还有一个仅包含0和1字符串的数组。你的任务是使用给定的m 个0和 n 个1,找到能拼出存在于数组中的字符串的最大数量。每个0和1至多被使用一次。注意:给定0和1的数量都不会超过100。给定字符串数组的长度不会超过600。示例 1:输入: Array = ...

2020-08-30 22:27:24 98

原创 Selenium爬虫 -- 使用Selenium爬取数据时,网页切换之后原先获取的元素变量失效的问题

如题,在使用Selenium爬取***的数据时,有的帖子是有图片的,而主页是没法直接获取图片的,只能点击进入详情页面,并且还得进其他网站才能获取图片的绝对地址来下载。而采集完之后,使用back方法回到主页后,也就是经过网页切换之后,原先在主页获取的元素变量articles就失效了,不能再继续从中提取article来处理下一个帖子,而是会直接结束循环。articles = self.browser.find_elements_by_xpath('//article[@class="_55wo _5r

2020-08-29 23:43:41 588

原创 Python爬取图片时,urllib提示没有属性urlretrieve的问题

在开发***爬虫的时候,图片的爬取我选择了拼接url进入mbasic.***网站,然后根据其中的图片绝对地址爬取,其中最后一步需要用到urllib库。urllib.urlretrieve('pic_src', './pic_directory')但是在运行爬虫测试的时候出错了。AttributeError: module 'urllib' has no attribute 'urlretrieve'经过查找博客发现问题所在:Python版本不同,有很多库的调用方式不同。# Pytho

2020-08-29 19:38:04 246

原创 Python爬虫实践(二) -- 爬虫进阶:爬取数据处理、数据库存储

在前一篇博客中描述要求的基础上,将用户的所有信息爬取下来,并按约束与数据类型存入关系型数据库。

2020-07-01 22:37:32 683

python+BiLSTM+CRF.rar

自然语言处理作业 ,实现序列标注、人名地名机构名的命名实体识别 Bi-LSTM+CRF条件随机场 pytorch实现 PS:资源的下载积分会随下载次数自动增加越来越多,如果您积分不够的话可以私信我重置下载分数

2020-11-12

Facebook爬虫(参考用,不再更新)

Facebook爬虫 完成了对用户所有帖子的爬取,用户名,发布时间,文本内容及图片视频内容,转评赞的详情等 将个人信息用*************做了替换 部分xpath路径可能已经失效 PS:资源的下载积分会随下载次数自动增加越来越多,如果您积分不够的话可以私信我重置下载分数

2020-10-13

LinkedIn爬虫(参考用,不再更新)

LinkedIn爬虫 爬取个人用户的动态。 (部分信息已用******代替) PS:资源的下载积分会随下载次数自动增加越来越多,如果您积分不够的话可以私信我重置下载分数

2020-11-11

基于知识图谱的问答系统 -- SpringBoot整合Neo4j开发问答系统

基于知识图谱的问答系统 -- SpringBoot整合Neo4j开发问答系统 PS:资源的下载积分会随下载次数自动增加越来越多,如果您积分不够的话可以私信我重置下载分数

2020-06-09

考研英语作文、阅读(超全)

价值100元的题源外刊课程 非常全面的考研英语作文素材、模板,阅读理解外刊练习等 PS:资源的下载积分会随下载次数自动增加越来越多,如果您积分不够的话可以私信我重置下载分数

2020-03-09

中科院计算机考研、863真题.zip

中科院计算机考研、计算机学科综合(专业)、863真题 PS:资源的下载积分会随下载次数自动增加越来越多,如果您积分不够的话可以私信我重置下载分数

2020-03-09

中科院计算机考研资料 + 考研全科笔记.rar

中科院计算机考研资料 + 考研全科笔记 PS:资源的下载积分会随下载次数自动增加越来越多,如果您积分不够的话可以私信我重置下载分数

2020-04-24

408真题、考研资料汇总.zip

408真题、考研资料汇总 PS:资源的下载积分会随下载次数自动增加越来越多,如果您积分不够的话可以私信我重置下载分数

2020-03-09

vs2017挂机下载包.zip

C盘只有128G固态,剩了十几G,快满了,就想把VS2017挪一下位置,结果找了很久,也没遇到能行的教程,还错下了一个不行的资源。 那个资源是哪个我也不说了 最后还是我想起来去班群下载了同学大一时候上传的vs_community.exe文件。 PS:资源的下载积分会随下载次数自动增加越来越多,如果您积分不够的话可以私信我重置下载分数

2020-11-11

考研全科笔记.zip

手记考研全科笔记扫描件,数一、英一、计组、数据结构、计网、操作系统 PS:资源的下载积分会随下载次数自动增加越来越多,如果您积分不够的话可以私信我重置下载分数

2020-03-04

数据结构复习大纲.pdf

数据结构复习大纲 PS:资源的下载积分会随下载次数自动增加越来越多,如果您积分不够的话可以私信我重置下载分数

2020-03-09

HPlus前端模板.rar

Hplus前端模板框架可以直接修改然后整合进项目 PS:资源的下载积分会随下载次数自动增加越来越多,如果您积分不够的话可以私信我重置下载分数

2020-06-02

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除