![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据处理
文章平均质量分 56
lovenoodles
这个作者很懒,什么都没留下…
展开
-
python爬虫(一)
买了挺久的《用python写网络爬虫》,一直没有怎么细看。最近因为像测试下搜索,但是苦于自己没有海量的数据,所以准备用python写个爬虫,爬取一些网站(瓜子二手车,下厨房等)的数据今天将第一章的内容进行了测试:环境准备如下:python2.7(windows)vscode(需要装python插件)第一章主要实现了一个基本的爬虫。用于了解网站,用户代理,网站地图,爬取延时以及各种爬取策略。代码部分...原创 2018-05-01 22:59:32 · 280 阅读 · 0 评论 -
ubuntu14.04 安装puppeteer 网页截图
构建node环境sudo apt-get install nodejs-legacysudo apt-get install npmnpm config set registry https://registry.npm.taobao.orgsudo npm install -g cnpm安装cnpm时,log如下npm http GET https://registry....原创 2018-11-06 23:21:20 · 415 阅读 · 0 评论 -
python 获取boss直聘 php岗位 防止urllib2 403错误
直接上代码。初步获取url内容。添加header防止返回403错误。 import urllib2url = "https://www.zhipin.com/job_detail/?query=php&scity=101010100&industry=&position="headers = {'User-Agent': 'Mozilla/5.0 (Window...原创 2018-11-13 22:49:36 · 766 阅读 · 0 评论 -
ubuntu14.04 安装scrapy采坑记录
1. 配置pip, easy_install 国内源:cat ~/.pip/pip.conf [global]index-url = https://pypi.tuna.tsinghua.edu.cn/simplecat ~/.pydistutils.cfg [easy_install]index-url = https://pypi.tuna.tsinghua.edu.cn...原创 2018-11-14 00:05:34 · 2013 阅读 · 0 评论 -
kettle windows安装后启动spoon.bat无法启动的问题
修改spoon.bat如下语句: if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms1024m" "-Xmx2048m" "-XX:MaxPermSize=256m" 为:if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_原创 2019-01-29 04:54:27 · 1782 阅读 · 1 评论