自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mjp_erhuo的博客

一个爬虫工程师的路程

  • 博客(7)
  • 资源 (4)
  • 收藏
  • 关注

原创 selenium实例【唯品会爬取】

import jsonfrom selenium import webdriverfrom time import sleepfrom bs4 import BeautifulSoupimport urllib.parseclass weiSpider(object):def __init__(self,url,shang,start_page,end_page):   self.url = ...

2018-04-28 23:38:40 1135

原创 网页状态码和Fiddler使用的补充

HTTP状态码的分类HTTP状态码由三个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个数字没有分类的作用。HTTP状态码共分为5种类型:分类分类描述1**信息,服务器收到请求,需要请求者继续执行操作2**成功,操作被成功接收并处理3**重定向,需要进一步的操作以完成请求4**客户端错误,请求包含语法错误或无法完成请求5**服务器错误,服务器在处理请求的过程中发生了错误HTTP状态码表(...

2018-04-28 18:32:32 2336

转载 Fiddler抓包工具的下载和入门级使用

一、下载工具包百度搜索”fiddler 下载“ ,安装最新版本下载的软件安装包为“fiddler_4.6.20171.26113_setup.exe”格式,双击安装。安装成功,在“开始”-“所有程序”,就会看见这样的图标,若是常用的话,也可以在桌面建一个快捷方式,如下图:二、fiddler手机抓包原理在本机开启了一个http的代理服务器,然后它会转发所有的http请求和响应。Fiddler 是以代...

2018-04-28 18:15:48 1464

原创 使用python代码发送邮件【163邮箱发送实例】

import smtplibfrom email.mime.text import MIMEText# 连接163邮箱服务器mailserver = "smtp.163.com"# 163邮箱的端口号mailPort = 25# 163邮箱的用户名mailUsername = "wenyucheng8888@163.com"# 使用163邮箱的授权 密码mailPasswd = "1qaz2wsx...

2018-04-28 13:42:15 7537

原创 python基础的字符串测试掌握程度小试题【歌词解析】

                                            歌词解析123 13:32:38musicLrc = """[00:03.50]传奇[00:19.10]作词:刘兵 作曲:李健[00:20.60]演唱:王菲[00:26.60][04:40.75 ][02:39.90][00:36.25]只是因为在人群中多看了你一眼[04:49.00][02:47.44][00...

2018-04-28 13:35:06 298

原创 正则,bs4,xpath的使用方法

数据匹配的三中方法,bs4,xpath,正则第一种:正则(先导入re库)分为三种查找方法式:re.math(),re.search(),re.findall()re.math():是从所要匹配的字符串的起始位置开始匹配且只值输出一个值,一般不用因为太耗时了;re.search():从所要匹配的字符串的任意位置匹配,但是只输入第一找到的匹配值,所以不适合大多时候;re,findall():从所要匹配...

2018-04-27 17:54:45 2129

原创 笔趣阁的小说爬取

import urllib.requestfrom lxml import etreedef chu_url(url,shuhao): url = url + shuhao headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) C...

2018-04-27 12:00:56 775

dns清理.bat (处理win桌面的远程桌面连接无法连上其他机器)

处理win桌面的远程桌面连接无法连上其他机器

2021-01-27

csv文件合并.bat

将多个CSV文件合并成一个文件 CSV全称Comma-Separated Values,它是一种通用的,简单的,被广泛采用的一种表格数据格式。采用纯文本格式存储,用分隔符号分开。它格式类似于数据库表格,每一行,中间用分隔符分开,一行就是一条记录,一列就是一个字段。它是文本格式,所以非常直观,可读。 CSV文件可以记事本软件直接打开编辑,也可以用Excel软件打开编辑。 CSV文件有几个规则:开头不能空,没有空行,不支持数字和特殊字符

2020-09-02

xpath+helper

google插件XPath Helper可以支持在网页点击元素生成xpath,整个抓取使用了xpath、正则表达式、消息中间件、多线程调度框架(参考)。xpath 是一种结构化网页元素选择器,支持列表和单节点数据获取,他的好处可以支持规整网页数据抓取。 如果我们要查找某一个、或者某一块元素的xpath路径,可以按住shift,并移动到这一块中,上面的框就会显示这个元素的xpath路径,右边则会显示解析出的文本内容,并且我们可以自己改动xpath路径,程序也会自动的显示对应的位置,可以很方便的帮助我们判断我们的xpath语句是否书写正确

2020-03-25

ntp离线安装包 autogen ntpdate ntp

ntp 离线安装包, autogen-libopts-5.18-5.el7.x86_64.rpm ntpdate-4.2.6p5-28.el7.centos.x86_64.rpm ntp-4.2.6p5-28.el7.centos.x86_64.rpm

2019-04-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除