- 博客(5)
- 资源 (4)
- 收藏
- 关注
原创 python爬虫(二)
针对《用python写网络爬虫的第二章》,该章主要讲述了如何从网页中抽取数据。1. 现讲述一下正则匹配数据的方法:import urllib2import redef scrape(html): area = re.findall('<tr id="places_area__row">.*?<td\s*class=["\']w2p_fw["\']>(.*?)...
2018-05-13 17:34:07 371
原创 python intel64 windows 安装lxml
1. pip install lxml从下载日志看,下载地址是:https://pypi.tuna.tsinghua.edu.cn/packages/52/7f/aeaa0064809c319078b97bd30a0d7f7ee062df07608fa439029a948a431e/lxml-4.2.1-cp27-cp27m-win_amd64.whl但是 执行 from lxml import ...
2018-05-07 17:20:39 1531
原创 centos6 搭建ntp
在工作中,总能碰到服务器时间与本地时间不匹配的情况,先前总是手动进行设置,后来知道ntp服务后才知道原来ntp才是同步时间方面的利器(linux)1. 先总结下手动修改时间的方法: 查询当前时间:date -R//Thu, 03 May 2018 16:50:06 +0800查看bios时间hwclock -r 如果时区设置的有问题:查看时区:cat /etc/sysconfig/cl...
2018-05-04 09:43:53 440
原创 wordpress phpass java版本
phpass的java版本:https://github.com/Wolf480pl/PHPass对于wordpress的加密密码验证通过。主要的加密处理文件:phpass.java/* * Copyright (c) 2012-2013 Wolf480pl (wolf480@interia.pl) * * Permission is hereby granted, free of cha...
2018-05-03 16:17:51 5575
原创 python爬虫(一)
买了挺久的《用python写网络爬虫》,一直没有怎么细看。最近因为像测试下搜索,但是苦于自己没有海量的数据,所以准备用python写个爬虫,爬取一些网站(瓜子二手车,下厨房等)的数据今天将第一章的内容进行了测试:环境准备如下:python2.7(windows)vscode(需要装python插件)第一章主要实现了一个基本的爬虫。用于了解网站,用户代理,网站地图,爬取延时以及各种爬取策略。代码部分...
2018-05-01 22:59:32 290
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人