yorkmass

一个IT行业的终身学习者

  • 博客(28)
  • 资源 (26)
  • 收藏
  • 关注

原创 爬虫:淘宝商品信息定向爬虫

功能描述目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格。理解:淘宝的搜索接口           翻页的处理技术路线:requests-re准备,安排!我们先搜索:裙子,查看浏览器返回的链接信息起始页:https://s.taobao.com/search?q=裙子&imgfile=&commend=all&ssid=s5-e&a...

2018-11-24 21:12:13 1785 10

原创 把自己电脑做成web服务器+内网穿透并发布网页

把自己电脑做成web服务器加内网穿透发布网站。前言:由于学校WiFi为内网ip,且WiFi 为动态ip 由于为动态IP,每次登陆都会换IP地址,所以建议网线连接或者一直开机不断网,否则每次开机都要重新设置。本方法采用内网穿透,将本机的IP地址映射到云服务器,并采用内网穿透服务商的提供的域名,我的服务器如果可以搭好的话再给大家做内网穿透才能映射到自己的域名。还是建议同学们买自己的服务器可以宿舍合...

2018-11-24 14:00:11 20843 4

原创 Scrapy爬虫的优化

依靠scrapy提供的相关参数进行优化                                                           setting.py文件选项 说明 CONCURRENT_REQUESTS Downloader最大并发请求下载树立,默认32 CONCURRENT_ITEMS Item Pipeline最大并发ITEM处理数...

2018-11-29 02:39:30 379

原创 爬虫:股票数据Scrapy爬虫实例

功能描述*技术路线:scrapy*目标:获取上交所和深交所所有的股票的名称和交易信息*输出:保存到文件中数据网站的确定,和之前博客相同:https://blog.csdn.net/qq_36949176/article/details/84487150实例编写:步骤步骤1:建立工程和Spider模板cmd命令*\>scrapy startproject ...

2018-11-29 02:32:47 1085

原创 python爬虫学习笔记六:Scrapy爬虫的使用步骤

步骤1:创建一个工程和Spider模板步骤2:编写Spider步骤3:编写Item Pipeline步骤4:优化配置策略Scrapy爬虫的数据类型Request类class scrapy.http.Request()*Request对象表示一个HTTP请求*由Spider生成,由Downloader执行                              ...

2018-11-29 01:12:15 134

原创 爬虫:Scrapy爬取第一个网页实例解析

演示HTML地址演示HTML页面地址:https://python123.io/ws/demo.html文件名称:demo.html产生步骤步骤1:建立一个Scrapy爬虫工程生成工程目录代码(CMD): scrapy startproject python123demo生成的工程目录python123demo/ →外层目录scrapy.cfg →部署Scra...

2018-11-29 00:50:00 659

原创 爬虫:Scrapy常用命令

                                                              Scrapy常用命令命令 说明 格式 startproject 创建一个新工程 scrapy startproject<name>[dir] genspider 创建一个爬虫 scrapy genspider [op...

2018-11-26 20:36:52 219

原创 Scrapy爬虫框架结构以及和Requests库的比较

爬虫框架*爬虫框架是实现爬虫功能的一个软件结构和功能组件集合*爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫Scrapy爬虫框架结构"5+2"结构Spiders(用户提供Url、以及解析内容)、Item pipelines(对提取的信息进行处理)模块需要用户编写(配置)其他模块:Engine、Scheduler、Downloader模块已有实现,不需要用户进行修改E...

2018-11-26 19:13:33 1250

原创 Scrapy爬虫框架的安装

我们直接用pip安装Scrapy的话,会发生错误,提示构建twisted时安装失败,或者提示安装 Microsoftvisual c++14.0 的一个库。 运行pip install Scrapy时候提示Twisted安装失败所以我们就得按着提示,哪个组件失败了就手动去安装哪个(这里是Twisted)相关组件。提示安装Microsoftvisual c++14.0的一个库意思就是少了Tw...

2018-11-26 12:32:24 156

原创 爬虫:股票数据定向爬虫

功能描述*目标:获取上交所和深交所所有股票的名称和交易信息*输出:保存到文件中*技术路线:requests-bs4-re候选数据网站的选择:新浪股票:https://finance.sina.com.cn/stock/百度股票:https://gupiao.baidu.com/stock/股票代码一览表:http://quote.eastmoney.com/stockl...

2018-11-25 15:24:20 663

原创 爬虫:Re库的贪婪匹配和最小匹配

贪婪匹配Re库默认采用贪婪匹配,即输出匹配最长的子串。>>> import re>>> match=re.search(r'PY.*N','PYANBNCNDN')>>> match.group(0)'PYANBNCNDN'最小匹配如何输出最短的子串呢?对!那就加个问号吧~>>> import...

2018-11-24 18:09:39 378

原创 爬虫:Re库的match对象

                                                              Match对象的属性属性 说明 .string 待匹配的文本 .re 匹配时使用的pattern对象(正则表达式) .pos 正则表达式搜索文本的开始位置(第几个位置,一般为0) .endpos 正则表达式搜索文本的结束位置(...

2018-11-24 17:57:51 230

原创 python爬虫学习笔记五:Re库的介绍和使用

Re库介绍Re库是Python的标准库,主要用于字符串匹配。调用方式:import re正则表达式的表示类型*raw string 类型(原生字符串类型):re库采用raw string类型表示正则表达式,表示为:r'text'例如:r'[1-9]\d{5}'r'\d{3}-\d{8}|\d{4}-\d{7}'raw string是不包含转义符的字符串*s...

2018-11-24 17:02:17 350

原创 爬虫:正则表达式

正则表达式regular expression regex RE正则表达式是用来简洁表达一组字符串的表达式‘PY’   ‘PYY’  'PYYY'  'PYYYY' 可表示为PY+'PY'开头 ,后续存在不多于10个字符后续字符不能是‘P’或‘Y’     可用正则表达式表示:PY[^PY]{0,10} 正则表达式*通用的字符串表达框架*简洁表达一组字符串的表达...

2018-11-21 15:11:56 779

原创 爬虫:中国大学排名定向爬虫实例

实例最好大学排名http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html功能描述:输入大学排名URL链接输出:大学排名信息的屏幕输出(排名,大学名称,总分)技术路线:requests-bs4定向爬虫:仅对输入URL进行爬取,不扩展爬取bs4只能获取静态url信息程序的结构设计步骤1:从网络上获取大学排名网页内容定...

2018-11-21 08:29:00 345

原创 爬虫:基于bs4库的html内容查找方法

<>.find_all(name,attrs,recursive,string,**kwargs)返回一个列表类型,存储查找的结果。name:对标签名称的检索字符串attrs:对标签属性值得检索字符串,可标注属性检索recursive:是对子孙全部检索,默认True调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点...

2018-11-20 22:49:13 407

原创 爬虫:信息提取的一般方法

信息提取的一般方法方法一:完整解析信息的标记形式,再提取关键信息。XML JSON YAML需要标记解析器 例如:bs4库的标签树遍历优点:信息解析准确缺点:提取过程繁琐,速度慢 方法二:无视标记形式,直接搜索关键信息。搜索对信息的文本查找函数即可优点:提取过程简洁,速度快缺点:提取结果准确性与信息内容相关 融合方法融合方法:结合形式解析与搜...

2018-11-20 21:20:51 1587

原创 各种信息标记形式HTML\XML\JSON\YAML

HTML就不做介绍了,太熟悉了,就是用各种标签进行标记XML以标签为主,来构建信息表达信息用于Internet上的信息交互与传递和Html非常接近,是Html的扩展XML学习教程:http://www.runoob.com/xml/xml-tutorial.html<img src="china.jpg" size="10"/><!--这不是一个好...

2018-11-20 10:14:13 365

原创 python爬虫学习笔记四:BeautifulSoup库对HTML文本进行操作

只要你提供的信息是标签,就可以很好的解析怎么使用BeautifulSoup库?from bs4 import BeautifulSoupsoup=BeautifulSoup('<p>data<p>','html.parser')例如:import requestsr=requests.get("http://python123.io/ws/demo....

2018-11-19 11:18:37 339

原创 爬虫:ip地址查询代码

首先,我们找到一个能输入ip查询ip信息的网站,如ip138.com我们先随便输入一个ip,进行查询,得到的返回链接格式如:http://www.ip138.com/ips138.asp?ip=你要查询的ip地址接着我们就可以采用这个格式得到查看返回的网页的ip信息了代码如下import requestsurl="http://www.ip138.com/ips138.asp?...

2018-11-18 13:58:53 1050

原创 python爬虫学习笔记三:图片爬取

图片爬取的代码r.content 文件的二进制格式Python引入了with语句来自动帮我们调用close()方法:open(path, ‘-模式-‘,encoding=’UTF-8’) w:以写方式打开,a:以追加模式打开 (从 EOF 开始, 必要时创建新文件)r+:以读写模式打开w+:以读写模式打开 (参见 w )a+:以读写模式打开 (参见 a )rb:以二进制...

2018-11-18 13:40:24 202

原创 爬虫:模拟浏览器对网站内容进行爬取

对于一些保护比较好的网站,他能识别你是用requests库对其进行访问,所以有些网站会禁止你用python对其进行访问所以我们可以修改发送给网站的头部信息,伪造浏览器对网站进行访问查看我们发送给网站的头部信息:r.request.headerskv={'user-agent':'Mozilla/5.0'}     // 修改访问的user-agent信息url="你要爬取的网站的链...

2018-11-17 22:05:53 714

原创 python爬虫学习笔记二:Requests库详解及HTTP协议

Requests库的安装:https://mp.csdn.net/postedit/83715574r=requests.get(url,params=None,**kwargs)这个r是Response对象url :拟获取页面的url链接params:url中的额外参数,字典或字节流格式,可选**kwargs:12个控制访问的参数Requests库的2个重要对象   ...

2018-11-17 21:21:47 372

原创 如何彻底的关闭Window自动更新?

win10固然好用,但是对于一些比较老的电脑,更新可不是什么好事,他会导致一系列问题,比如卡机、蓝屏、系统崩溃等等,开启Windows自动更新,每次开机的时候还得等待系统更新,如果Windows在我们着急用电脑的时候,突然更新,那是一年非常糟糕的事情。所以关闭Windows自动更新,有点必要。但是大家在关闭Windows自动更新的时候,经常关闭的不彻底。或者过一段时间,Windows又恢复更...

2018-11-09 14:33:50 2398 2

原创 网页页面预加载动画的实现,加载后隐藏

我们做web app的时候,可以做一个页面加载广告,在你网页加载的时候,先出现一段gif动图或者是海报。下面是实现页面加载动画的代码首先js代码的实现(function($){ $(window).load(function(){ $('#begin').fadeOut(); $('#loading').delay(200).fadeOut('...

2018-11-09 13:37:37 4208

原创 U盘重装系统教程与电脑开机密码清除

最近的WIN10更新,对于一些老旧的电脑,总会发生蓝屏的情况,万一电脑蓝屏了,开不了机,我们这时候就需要用到U盘来重装系统了。重装系统我们这里主要介绍2017年之后出的电脑通用重装系统步骤,早期的电脑的步骤由于硬件差异需要修改bios配置,对于比较老版本的电脑重装系统有问题可以在文章后面评论,博主看到后会及时给予帮助。要重装系统,首先你需要准备一个空U盘,还有一个windows系统镜像...

2018-11-04 18:22:52 1195

原创 python爬虫学习笔记一:爬虫学习概览与Requests库的安装与使用

python网络爬虫与信息提取学习目录:the website is the APIRequests:自动爬取HTML页面自动网络请求提交robots.txt:网络爬虫排除标准Beautiful Soup:解析HTML页面正则表达式详解,提取页面关键信息ReScrapy*:网络爬虫原理介绍、专业爬虫框架介绍python IDE工具文本类:IDLE(自带、默认、常...

2018-11-04 16:24:28 220

原创 Python环境变量的配置

python下载安装好了之后,在cmd窗口里面,我们输入python,提示找不到该命令,这时候我们需要配置环境变量我们找到我们安装python的目录,至于怎么找到python的安装目录?我们在win10里面可以搜索python,然后出现之后右键,打开文件位置,这时候打开的是快捷方式地址目录,我们再次右键打开文件地址,即可进入python安装根目录,win7同理,然后复制python的地址:C:...

2018-11-04 15:03:09 2247

Translate翻译文件中key:value的value

可以将文件中包含有key:value的value部分翻译为任何的语言,基于百度翻译api实现,java语言写的工具,可以用命令行运行

2021-03-31

课设-学生宿舍管理系统(asp.net)

C# asp.net实现的学生宿舍管理系统、数据库sql

2021-03-09

毕设-家校通(老师家长关于学生成绩的沟通管理系统)

毕设、家校通、实现教师与老师留言板、老师上传、统计分析各常考试学生成绩信息、算总分平均分、写评语、家长只能看到自己学生的成绩

2021-03-09

毕设-xxxx大学选课管理系统

毕设、华北理工大学选课管理系统、实现课程预选、正选等功能使用Springboot\java\mysql\ssm\layui技术

2021-03-09

毕设-项目文件管理系统

实现文件权限管理,上传下载、基本用户管理,使用java\springboot\mysql\ssm\layui\shiro等技术

2021-03-09

毕设-华北理工大学推免管理系统

java\ssm\layui\springboot实现综测计算、excel导入、多级审核、推免资格管理等功能、含毕设完整文件、论文

2021-03-09

毕设-库存管理系统.zip

使用springboot、mybatis、layui、shiro等技术实现了库存管理系统,该有的都有,毕设(里面有数据库)+论文,直接能用,高质量

2021-03-09

毕设-高校返校新冠疫情排查系统

毕业论文+毕业设计全部资料,基于Springboot+shiro+layUI实现了健康信息录入和统计以及大数据面板展示,基本用户管理权限管理等功能

2021-03-09

Java面试题汇总.pdf

自己整理的精选面试题

2021-03-03

通用后台管理系统-毕设救星

cmd使用java -jar filems-0.0.1-SNAPSHOT.jar命令执行,通用后台管理系统.数据库和代码参考我的博客https://blog.csdn.net/qq_36949176/article/details/104803304

2020-03-11

spring boot mybatis freemarker整合项目

spring boot mybatis freemarker整合项目的完整源码。最新版本IDEA,稳!

2020-02-20

spring boot项目配置通用模板

spring boot jar包的项目配置通用模板。带有打包完成的文件,运行java -jar 包名即可部署。附带项目源码

2020-02-20

基于three.js实现全景.zip

使用了three.js和photo-sphere-viewer实现网页全景预览,可以随意移植使用,嵌入到你的网页中,实现全景效果

2020-02-18

assignment(noteok).zip

爱丁堡NLP课程的数据分析课程作业,assignment,birthbabies2015 and origin

2019-10-21

尚硅谷vue视频+源码+课件.txt

尚硅谷Vue视频+源码+课件教学,看着视频写不出代码,这里有源码供参考

2019-08-09

coolweather最新学习源码

第一行代码酷欧天气案例、coolweather最新版本,Andorid studio 最新版本,api24(android 7)

2019-06-28

VC++6.0编译器(C语言)

vc++6.0编译器,完美WIN7\WIN10安装,兼容性好,欢迎下载使用!

2019-06-22

Natron-2.3.14-Linux-x86_64bit.tgz

Natron是一个在Linux平台类似于AE的视频处理应用程序!

2019-06-09

.net文件上传下载功能实现demo

.net实现文件上传下载功能,附件预览功能,华北理工大学综合测评管理系统功能demo之一

2019-04-19

尚硅谷spring学习源码

尚硅谷spring学习源码,自己学习一点一点敲的,非常详细的注释和理解

2019-01-19

org.eclipse.jface.text_3.11.2.v20161113

对eclipse4.6.2自动提示功能进行了优化,找到eclipse里面的对应jar包替换即可

2019-01-17

抓包工具Fiddler

最好用,最专业的抓包工具Fiddler,软件测试人员首选测试工具

2018-10-01

全景图转换(PC脚本)

微博全景图制作、普通图片转换为微博、QQ空间可以显示的全景图脚本。

2018-08-25

matlabR2017a(b)破解工具

matlabR2017软件破解工具,完美破解,完美运行。拿走不谢

2018-08-15

Packet Capture

抓包工具,可抓取混淆参数,配合搭建实现免流上网功能。

2018-08-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除